1.擬合:接近目標的遠近程度。
過擬合:學習能力過強導致過於擬合。過於學習學到認為女生必須是長頭髮。
欠擬合:學習能力低下導致欠擬合。學習能力低下,擁有長髮的都是女生。
2.評估方法:
目標:所選模型的泛化誤差最小
一、留出法
step 1:
將資料集d 互斥 的分成訓練集s和測試集t,d=sut。
step 2:執行,得評估結果
多次迴圈step1、step2
最後,取多次重複實驗的均值進行評估
通常:
2/3~4/5的樣本用作訓練集,剩餘樣本作為測試集。
同時,保證樣本資料分布的一致性。
二、交叉驗證法
step 1:
將資料集d 互斥 的分為k個大小相似的子集,d=d1 u d2 u … u dk,並保證資料分布的一致性。
step 2:每次用k-1個子集做訓練集,剩下乙個子集做測試集
step 3:執行,得評估結果
多次迴圈step1、step2、step3
最後,取多次重複實驗的均值進行評估
通常:
1)一般k取10,20,5
2)資料集較大時,訓練大量模型,開銷較大
三、自助法
直接以 自助取樣法(bootstrap sampling) 為基礎產生訓練樣本、測試樣本。
給定包含m個樣本的資料集d,對d進行隨機又放回的取樣產生資料集d』,將d』作為訓練集,d\d』作為測試集。
通常,
1)用於資料集較小,難以有效劃分訓練/測試集時很有用;
2)自助法對整合學習很有用,自助法可以從初始資料集中產生很多不同的訓練集
3.效能度量
衡量模型泛化能力的評價標準。
一、錯誤率與精度
1)錯誤率:分類錯誤的樣本數佔樣本總數的比例
2)精度:分類正確的樣本數佔樣本總數的比例
二、查準率、查全率、f1
錯誤率與精度有時不能滿足所有任務需求。
對於二分類問題,真正例tp、假正例fp、真反例tn、假反例fn。混淆矩陣
查準率:p = tp/(tp+fp)
查全率:r = tp/(tp+fn)
查準率與查全率是一對矛盾的度量。
例如:若希望將好瓜盡可能多地選出來,則可通過增加選瓜的數量來實現,如果將所有西瓜都選上,那麼所有的好瓜也必然都被選上了,但這樣查準率就會比較低;若希望選出的瓜中好瓜比例盡可能高,則可只挑選最有把握的瓜,但這樣就難免會漏掉不少好瓜,使得查全率較低,通常只有在一些簡單任務中,才可能使查全率和查準率都很高。
p-r曲線,找平衡點(break-even point,bep),p=r。
在一些應用中,對查準率、查全率重視程度不同。
f1度量的一般形式
f1是基於查準率與查全率的調和平均定義的:
加權調和平均
引數大於1時,查全率有更大影響;小於1時,查準率有更大影響。
4.roc與auc
1)roc曲線:
受試者工作特徵曲線 (receiver operating characteristic curve)根據一系列不同的二分類方式(分界值或決定閾),以真正例率(true positive rate,tpr,靈敏度)為縱座標,假正例率(false positive rate,fpr,1-特異度)為橫座標繪製的曲線。
tpr=tp/(tp+fn)
fpr=fp/(fp+tn)
2)auc(area under roc curve)
指roc曲線的下面積。曲線下面積越大,診斷準確性越高。
機器學習 模型評估與選擇
1 經驗誤差和過擬合 錯誤率 分類錯誤的樣本數佔樣本總數的比例 精度 1 錯誤率 誤差分為訓練誤差 或稱經驗誤差 和泛化誤差 訓練誤差 在訓練集上的誤差 泛化誤差 在新樣本上的誤差 機器學習的目標是得到泛化誤差最小的學習器。學習器把訓練樣本學得 太好 了的時候,很可能已經把訓練樣本自身的一些特點當做...
機器學習 模型評估與選擇
第二章 模型評估與選擇 一 概覽 對於同一資料集而言,給定不同的演算法,會提取不同的模型,甚至對於同一演算法給定不同的引數,也會得到不同的模型,選擇最佳的模型的過程稱為模型選擇。模型選擇會遵循一定的標準,首先需要將資料集分成若干部分,一部分用於訓練模型,一部分用於測試模型的泛化能力,對於測試的結果給...
機器學習模型評估與選擇
錯誤率 分類錯誤的樣本數佔樣本總數的比例 精度 1 錯誤率 誤差 學習器的實際 輸出與樣本的真是輸出之間的差異成為 誤差 訓練器在訓練集上的誤差為訓練誤差 在新樣本的誤差稱為泛化誤差 過擬合 學習器把訓練樣本學的太好了,已經把訓練樣本自身的一些特點當作了所有潛在樣本都會有的一般性質 1.留出法 直接...