在機器學習中,按照ng的說法,常見的做法是先使用乙個簡單的模型來進行計算,然後找到其中容易出現的問題和樣本的一些特徵,解決之後再使用較為複雜的模型,這樣會比較節省時間,下面介紹一些常見對假設進行評價的方法。
首先在機器學習中常見的對樣本的分類方式是60%的訓練集(training set),20%的交叉驗證集(cross validation set),20%的測試集(testing set)。其中的訓練集和交叉驗證集用於對假設引數進行優化,比如
λ 和
θ 等,測試集僅用來求得假設的泛化誤差。
1.關於偏差(bias)和方差(variance)
這是兩個比較容易混淆的概念,由兩幅影象來說明
以上這種情況屬於欠擬合狀態,在測試集的階段就會有很大的誤差(error),這就是一種高偏差的狀態,常見的解決方法也就是增加特徵(feature)的數目或者增加平方特徵項等,以及減小正則項的係數
λ ,注意在這樣的情況下增加樣本數不會有作用,這在後面談到學習曲線的地方會有詳細說明。
以上這樣的情況屬於過擬合狀態,測試集的誤差很小,但是如果放到交叉驗證集會產生很大的誤差,這就是一種高方差的狀態,要解決這樣的問題,與上面欠擬合的方式相反,可以通過去掉一些不太起作用的特徵項或者增大
λ 來解決,在這樣的情況下,增加樣本的數量也是有顯著作用的。
2.學習曲線
學習曲線也就是將測試集和交叉驗證集的誤差對於樣本個數的曲線,如下圖表示,同樣分為欠擬合與過擬合兩種情況
以上便為欠擬合的狀態,其顯著特徵為:隨著訓練集樣本的增加,jt
rain
(θ) 迅速上公升,jc
v(θ)
迅速下降,並且在樣本集還不是太大的時候就已經差不多相等,在這樣的情況下,當樣本數超過某乙個值的時候,學習曲線不會發生顯著的改變,也就是說再增加樣本個數並不能夠改善欠擬合的狀態。
以上為過擬合的狀態,可以看到在樣本個數較小的時候,jc
v(θ)
和jtr
ain(
θ)之間有較大的間隔,隨著樣本數目的增加,這個間隔在逐漸的減小並且jc
v(θ)
和jtr
ain(
θ)也趨近於乙個穩定的誤差值,也就是說增加樣本個數對於當前過擬合的狀態是有明顯改善的。
至於學習曲線的繪製,可以在1~m之間取多個間隔點分別訓練模型,然後分別求出它們的jc
v(θ)
和jtr
ain(
θ),這裡需要注意的是,在訓練模型的時候是包含了正則項的,但是在求誤差的時候是沒有計算正則項的,這個誤差被定義為||
hθ(x
)−y|
|22∗
m ,也就是線性回歸中除去代價函式的部分。
3.其他的評價指標
在分類問題中,我們常用準確率來評價乙個模型的好壞,但是在某些情況下,單獨用準確率來評價乙個模型並不是合理的,尤其是在不同分類間的數目出現有較大偏差的時候,也就是出現skewed classes的時候。
舉個例子,當我們需要根據腫瘤的大小,形狀等引數來**腫瘤是良性還是惡性的時候,由於大多數情況都會是良性,所以在假設全為0的時候會出現很高的準確率,但是這樣做很明顯是不合理的。
於是另外引入兩個概念,分別是查準率(precision)和查全率(recall),查準率定義為**為真,實際也為真的個數與**為真的個數的比值,查全率定義為**為真,實際也為真的個數與實際為真的個數的比值。通常準確與全面這二者不可兼得,我們可以通過調整logistic函式的閾值來滿足我們對這兩者的要求。例如在需要較高準確性的時候,可以調高閾值從0.5到0.7或者更高,這樣對於**為真的條件就更為嚴格,也就會得到更高的查準率,相反的,如果需要**地更加全面,可以調低相應的閾值。
機器學習評價方法
precision 的結果中 正確的正例 的結果中所有為1的值 recall 的結果中 正確的正例 真實存在的正例數 所以p r curve 對負樣本的比例不敏感 1 真陽性 true positive,tp 檢測不健康,且實際不健康 正確肯定的匹配數目 2 假陽性 false positive,f...
機器學習學習中評價模型好壞的標準
準確率 accuracy 這個公式計算比較簡單,就是 正確的樣本數量除以總的樣本數量 但是很多時候,這個往往不能滿足要求,比如樣本不平衡,比如我們更加關心另一類的 情況,這就會有問題,比如你的樣本不均衡,以兩類問題為例 如果 1為10000,1為50,那麼只要過擬合,即使 1全部分錯,正確率也是非常...
機器學習擬合效果評價 機器學習效果評價標準
2 分類準確度類評價分類演算法的好壞存在問題 3 分析 4 方案 二 混淆矩陣 confusion matrix 1 二分類問題中混淆矩陣 矩陣的最上一行代表 值,最左列為真實值 0 negative 1 positive tn fp fn tp 表示 結果的樣本數量 tn true negativ...