2 策略
3 查全率和查準率 (precision/recall)
使用訓練集訓練出10個模型
用10個模型分別對交叉驗證集計算得出交叉驗證誤差
選取代價函式值最小的模型
用步驟3中選出的模型對測試集計算得出推廣誤差
對於回歸模型,我們可以計算代價函式j
jj (未正則化);
對於分類模型,我們除了可以計算代價函式j
jj (未正則化)外,還可以計算測試集誤分模擬率.
當分類出現了既不希望出現的錯誤分類 (如在識別貓的例子中,把****標記為了貓),那麼可以適當修改誤差指標,加大對****的誤差懲罰權重:
e rr
or=1
∑ωi∑
ωii,
ωi=error &= \frac}\sum\omega_i\_\neq y_\}, \\\\ \omega_ &= \begin1 & x_\ is\ not\ **** \\ 10, & x_\ is\ **** \end \end
errorω
i=
∑ωi
1∑ω
ii,
=
jtrain
和交叉驗證集誤差jcv
j_jc
v作為訓練集樣本數量m
mm的函式繪製的圖表。
高方差:假設我們使用乙個非常高次的多項式模型,並且正則化非常小,當交叉驗證集誤差遠大於訓練集誤差時,往訓練集增加更多資料可以提高模型的效果。
神經網路的方差和偏差:
使用較小的神經網路,類似於引數較少的情況,容易導致高偏差和欠擬合,但計算代價較小。使用較大的神經網路,類似於引數較多的情況,容易導致高方差和過擬合,雖然計算代價比較大,但是可以通過正則化手段來調整而更加適應資料。
通常選擇較大的神經網路並採用正則化處理會比採用較小的神經網路效果要好。
對於神經網路中的隱藏層的層數的選擇,通常從一層開始逐漸增加層數,為了更好地作選擇,可以把資料分為訓練集、交叉驗證集和測試集,針對不同隱藏層層數的神經網路訓練神經網路。
查全率、查準率
f1:查全率、查準率的調和平均
2 f1
=1pr
ecis
ion+
1rec
all\frac = \frac+\frac
f12=p
reci
sion
1+r
ecal
l1
機器學習python演算法評估矩陣
分類演算法矩陣!from pandas import read csv from sklearn.model selection import kfold from sklearn.model selection import cross val score from sklearn.linear ...
機器學習 模型評估與選擇
1.擬合 接近目標的遠近程度。過擬合 學習能力過強導致過於擬合。過於學習學到認為女生必須是長頭髮。欠擬合 學習能力低下導致欠擬合。學習能力低下,擁有長髮的都是女生。2.評估方法 目標 所選模型的泛化誤差最小 一 留出法 step 1 將資料集d 互斥 的分成訓練集s和測試集t,d sut。step ...
機器學習 模型評估與選擇
1 經驗誤差和過擬合 錯誤率 分類錯誤的樣本數佔樣本總數的比例 精度 1 錯誤率 誤差分為訓練誤差 或稱經驗誤差 和泛化誤差 訓練誤差 在訓練集上的誤差 泛化誤差 在新樣本上的誤差 機器學習的目標是得到泛化誤差最小的學習器。學習器把訓練樣本學得 太好 了的時候,很可能已經把訓練樣本自身的一些特點當做...