花費一整天定製ospider_extratools,又用大半天處理gis保研講座的備課,筆記電子化的時間稍微晚了一些。不得不說,堅持做筆記確實不是一件容易的事情。
首先是3個單一指標:
準確率 accuracy=(tp+tn)/(tp+tn+fp+fn) : 準確識別的樣本數佔所有樣本數的比率
精確率(查準率)precision=tp/(tp+fp) : 從**值視角出發,等價於**為陽的可信度
召回率(查全率)recall=tp/(tp+fn) : 從真實值視角出發,等價於模型篩選出陽的完整度
其次是乙個復合指標f1 score,f1 score是precision和recall的調和平均數,即f1=2rp/(r+p)。轉換成有四個基礎值表示的話,f1=2tp/(2tp+fp+fn)。有一種p和r分子分母分別相加的既視感。
對於乙個0-1分類問題,類似邏輯回歸,我們要根據樣本的各個特徵(屬性)計算出乙個概率值p,p越接近1,越有可能為1類(真/陽)。那麼,什麼時候我們認為某個樣本是1類呢?這時,我們需要乙個閾值t。當p>t的時候我們將該樣本劃分為1類,否則劃分為0類。當在0-1間取不同的閾值時,我們注意到4個基本量(tp/np/tf/nf)會發生變化,這意味著一系列單一指標也會發生變化。當評價模型的整體效能而不是特定閾值下的效能的時候,我們引入了新的評價手段——不同的曲線。
一種典型曲線是p-r曲線,以精確率p為縱軸,召回率r為橫軸。
另一種是受試者操作特性曲線 (receiver operating characteristic curve,簡稱roc曲線),我們一般直接叫roc。roc曲線以真陽率tpr為縱軸,假陽率fpr為橫軸。
fpr = fp/(fp + tn) 負樣本中的錯判率(假警報率)
tpr = tp/(tp + tn) 判對樣本中的正樣本率(命中率)
acc = (tp + tn) / p+n 判對準確率
roc相對於p-r有當樣本特徵值發生線性變化時,曲線不變的有點,所以一般我們用roc曲線和roc曲線的下的面積auc(area under the curve)帶評價機器學習模型。roc曲線約陡峭,auc越大,說明模型效能越好。
之前記得有一篇文章講roc曲線非常的棒,一下沒找到了,下次找到了再修改當前的文章吧。
概念:度量機器學習模型總的**值與真實值間差距的函式。
就我個人而言,損失函式就是在效能度量指標的求和,運用於模型內部。而效能度量指標某種程度上類似於均值。我的理解不完全對,但是有用。
網課的ppt談了5種常用損失函式:0-1、絕對值、對數、平方、指數損失函式,同時老師口頭提了「交叉熵損失函式」。除交叉熵損失函式外,其他幾個函式都很easy。交叉熵函式的進一步定義可以看部落格:簡單的交叉熵損失函式,你真的懂了嗎?。這裡我只是掃了一眼,之後留作備用。
本來這裡想用latex公式的,但是掌握的不熟悉太費時間了。本週還有其他事情,不宜在文件編輯問題上投入過多精力。記錄幾個講在markdown中用公式的部落格:
markdown 插入數學公式實驗大集合
markdown數學公式語法
監督模型的核心問題就是確定正則化引數的同時最小化經驗風險。
模型過於複雜就可能產生過擬合問題,而正則化是解決模型過擬合問題的一種方法。所謂正則化就是給模型的複雜度增加一些懲罰項。
好吧,說實話這裡我沒弄懂。需要之後再看補充資料。
為了讓模型的評價更可靠。對於同乙份資料,多次選取不同的訓練集和測試集,進行模型的訓練與檢驗,最終評價結果取平均就是交叉驗證。
問題:交叉驗證的情況下,具體該用哪一組引數進行部署?
筆記 機器學習入門(二)
第一周有三大節,第一節是introduction,簡單介紹了機器學習的分類,監督學習和非監督學習各自的特點和區別,殘念的是做了三次課後作業,都沒能全部做對,多選題對於英語差的我來說真的是太不友好了。第二節主要講述了單變數的線性回歸問題。模型表述 依舊是通過預估房價的例子來構建了模型,對於資料集的描述...
機器學習 第二講
多元線性回歸又稱 multivariate linear regression 現在介紹一種可以表示任意輸入變數的符號 現在定義假設函式的多變數形式,包含以下各種引數 h theta x theta 0 theta 1 x 1 theta 2 x 2 theta 3 x 3 cdots theta ...
學習小筆記 機器學習
看書的時候做點筆記,偶爾翻出來看看才能真正掌握 否則很快就遺忘了 艾賓浩斯遺忘曲線 1 整合學習bagging基於自助取樣法 給定包含 m 個樣本的資料集,我們先隨機取出乙個樣本放入取樣集中,再把該樣本放回初始資料集,使得下次取樣時該樣本仍有可能被選中,這樣,經過 m次隨機取樣操作,我們得到含 m ...