模型訓練過程中過度擬合訓練集,將訓練樣本中的雜訊(錯誤的樣本)學習進去,使得訓練誤差不斷降低和模型複雜度不斷提高,最終導致泛化誤差公升高的一種現象
成因:雜訊(錯誤的樣本),樣本過少/缺乏代表性
估計泛化誤差用於在訓練過程中對模型的泛化誤差做估計,可用於優化模型建立,避免模型過擬合。這裡關於泛化誤差的估計,是在訓練過程中進行。要區別於模型評估階段的泛化誤差估計
用訓練誤差來表示泛化誤差
2.1悲觀誤差估計:訓練誤差+模型複雜度懲罰項
2.2最小描述長度原則
3 估計統計上界:
將訓練誤差看作乙個隨機變數,估計出訓練誤差的上屆,以此表示泛化誤差p113
這章節主要討論如何對分類器進行比較和選擇。這裡強調對分類器的選擇方法
通過估計泛化誤差實現,即計算模型在測試樣本集上的誤差;
步驟:1、估計泛化誤差;2、根據計算得到泛化誤差,使用顯著性檢驗進行選擇
1、 估計泛化誤差:保持法、交叉驗證/留一法、自助法
2、 使用顯著性檢驗進行選擇
一至三章節,主要討論過擬合以及防止過擬合的一些手段。現在討論模型訓練中的另外乙個重要問題,不平衡類問題。
在一至三節,使用的評估指標都是準確率,但是準確率將所有樣本都看得同等重要,因此在不適用於不平衡類資料集中
由於準確率是靈敏度和特效性的函式
其中靈敏度和特效性:
從以下例子來說明準確率不適合p239
從上門可以看出,分類器對稀有類的靈敏度太低(30%),而整體準確率為96.4%,這是由於稀有類數量比重過低造成。
因此對於不平衡類問題,廣泛使用精度和召回率進行度量。
乙個理想分類器在精度和召回率都接近1,但這兩個指標一般呈現反向關係,需要根據實際需要進行取捨。
精度和召回率另一種表現方式稱為f度量,該度量是精度和召回率的組合。
代價敏感學習/基於和成本效益
基於抽樣的方法
抽樣的思想是為了改變樣本的分布,從而是的稀有類在訓練集中有很好的表示。主要的抽樣方法有不充分抽樣和過抽樣。由於不充分抽樣和過抽樣都存在一些缺陷,因此一般混合使用這兩種方法
參考:資料探勘導論 pang ning tan
資料探勘:概念與技術
如何解決訓練網路過擬合的問題?
二 降低模型複雜度 三 正則化方法 四 訓練 五 整合方法 補充 降低 欠擬合 風險的方法 如何解決網路過擬合的問題?判斷乙個訓練模型過擬合,主要依據來自於,該模型在訓練集上的表現很好。但是在測試集合和新資料上的表現都不太好的情況。可以從以下的三個角度去解決訓練網路過擬合的問題。從資料入手,獲得更多...
機器學習 邏輯回歸2 多分類問題和過擬合問題
邏輯回歸1 現實生活中常遇到很多多分類學習任務,有些二分類學習方法可以直接推廣到多分類,但在現實更多情形下,我們是基於一些策略,利用二分類學習器來解決多分類問題。利用二分類學習器進行的多分類學習可以分為三種策略 給定資料集d x1,y1 x2,y2 xm,y m d x1,y 1 x2,y 2 x ...
過擬合和欠擬合的一些問題
三 產生過擬合原因 四 解決過擬合方法 圖一 欠擬合 模型擬合程度不高,資料距離擬合曲線較遠,或指模型沒有很好地捕捉到資料特徵,不能夠很好地擬合資料。圖二 正常擬合 圖三 過擬合 模型擬合度好過頭了。a.根本原因 特徵維度過少,模型過於簡單,導致擬合的函式無法滿足訓練集,誤差較大 b.解決方法 增加...