通常,我們可以通過實驗測試來對學習器的泛化誤差進行評估並進而做出選擇「留出法」直接將資料集d
dd劃分為兩個互斥的集合,其中乙個集合作為訓練集s
ss,另乙個作為測試集t
tt,即d=s
∪t
d=s\cup t
d=s∪t,s∩t
=∅
s\cap t = \varnothing
s∩t=∅。
注意:訓練/測試集的劃分要盡可能保持資料分布的一致性,避免因資料劃分過程引入額外的偏差而對最終結果產生影響。通常採用「分層取樣」
「分層取樣」是保留類別比例的取樣。例如對資料集d
dd有1000個樣例,其中包含500個正例,500個反例。70%樣本作為訓練集s
ss,30%樣本作為測試集t
tt,則分層取樣得到的s
ss應包含350個正例、350個反例,t
tt應該包含150個正例和150個反例。
單次使用留出法得到的估計結果往往不夠穩定可靠,在使用留出法時,一般要採用若干次隨機劃分、重複進行實驗評估後取平均值作為留出法的評估結果。
常把2/3~4/5的樣本用於訓練,剩餘樣本用於測試
「交叉驗證法」先將資料集d劃分為k個大小相似的互斥子集,即d=d
1∪d2
∪...
∪d
kd=d_1 \cup d_2 \cup ... \cup d_k
d=d1∪
d2∪
...∪
dk,di∩
dj=∅
(i≠j
)d_i \cap d_j = \varnothing(i \not = j)
di∩dj
=∅(
i=
j)。每個子集d
id_i
di都盡可能保持資料分布的一致性,即從d
dd中通過分層取樣得到。然後,每次用k−1
k-1k−
1個子集的並集作為訓練集,餘下的那個子集作為訓練集,這樣就可以獲得k組訓練/測試集,從而可進行k
kk次訓練和測試,最終返回的是這k
kk個測試結果的均值。
k最常用的取值是10k
kk折交叉驗證通常要隨機使用不同的劃分重複p
pp次,最終的評估結果是這p
pp次k
kk折交叉驗證結果的均值,例如常見的有「10次10折交叉驗證」。
設d
dd中包含m
mm個樣本,當k=m
k=mk=
m時,叫做留一法
「自助法」是給定包含m個樣本的資料集d
dd,我們對它進行取樣產生資料集d′d^
d′:每次隨機從d
dd中挑選乙個樣本,將其拷貝放入d′d^
d′,然後再將該樣本放回初始資料集d
dd中,使得該樣本在下次取樣時仍有可能被採到;這個過程重複m
mm次後,我們就得到了包含m
mm個樣本的資料集d′d^
d′,這就是自助取樣的結果。
調參:原則就是,對每個引數選定乙個範圍和變化步長。
最終模型:在模型選擇完成後,學習演算法和引數配置已選定,此時再用資料集d
dd重新訓練模型,這個模型中使用了所有m
mm個樣本,這才是我們最終提交給使用者的模型。
機器學習評估方法
訓練 測試集的劃分要盡可能保持資料分布的一致性,避免因資料劃分過程引入額外的偏差而對最終結果產生影響,例如 在分類任務中,至少要保持樣本的類別比例類似。如果從取樣的角度來看待資料集的劃分過程,則保留類別比例的取樣方式稱為 分層取樣 單詞使用留出法得到的估計結果往往不夠穩定可靠,在使用留出法,一般要採...
機器學習模型評估方法
分類模型評價度量 概率輸出型 這個有邏輯回歸 隨機森林 梯度提公升 adaboost等演算法,都是以概率作為輸出的。要想把概率型輸出變為分型別輸出,只要為其設立乙個閾值即可。positive predictive value 陽性 值 or precision 精度 陽性 值被 正確的比例。nega...
機器學習評估方法(基本)
其定義是 對於給定的測試資料集,分類器正確分類的樣本數與總樣本數之比。也就是損失函式是0 1損失時測試資料集上的準確率。由準確率,我們可以在一些場合,從某種意義上得到乙個分類器是否有效,但它並不總是能有效的評價乙個分類器的工作。比如 搜尋引擎 抓取了 csdn 100個頁面,而它索引中共有10,00...