過擬合和欠擬合 西瓜筆記一

2021-07-31 11:32:53 字數 1419 閱讀 8387

一:經驗誤差和泛化誤差

錯誤率:把分類錯誤的樣本佔總體樣本總數的比率

精度(accuracy)= 1 -錯誤率

誤差:把學習器的實際**輸出與樣本的真實輸出的差異叫做誤差;學習器在訓練資料集上的誤差叫做經驗誤差或訓練誤差,而在新樣本的上的誤差叫做泛化誤差;對於我們來說,我們一定想使學習器在新樣本的誤差最少化,極致為0;但我們並不知道新樣本;取而代之的只能使我們的學習器經驗誤差最小;

二:過擬合和欠擬合

過擬合:當學習器把樣本學習的太「過」的時候,把一些樣本的自身的某些特點當做所有潛在樣本的一般性質的時候就會出現過擬合現象,

這樣就會導致泛化能力弱化;導致過擬合的現象發生一般是學習器過於強大和模型過於複雜引起的;

欠擬合:就是在學習器學習能力低下的條件下,沒把樣本的一般特性的大部分學會,擬合一般比較好解決,可以適當的加強模型複雜度,增加學習次數等;

三:查準率和查全率

對於兩分類情況,我們可以得到樣本真實類別和學習器**的類別的組合,可以劃分如下:

tp 表示真實的正例**為 正例;fn 表示為真實的正例**為負例;fp表示真實的負例**為正例;tn表示真實的負例**為負例;

查準率 p = tp/(tp+fp)  ---表示**為正例中真實正例的比率

查全率 r = tp/(tp+fn)  ---表示為所有真實正例中有多少被**為正例的比率

一般來說查準率和查全率是矛盾的;比如有5個西瓜,3個為熟瓜,2個為生瓜;為了找出熟瓜查全率最大化,我可以把5個瓜都選擇了;那麼熟瓜都被選中了,查全率很大,但查準率比較低; 若我一共只選1個瓜呢,那查全率就會小了,因為一定會有兩個熟瓜丟掉的,那查準率會提高;

我們根據查準率和查全率的特性可以畫出一條曲線,如下圖可以看出隨著查全率增大,查準率減小;

那若多個學習器,怎麼根據p-r曲線判斷好壞呢?若乙個學習器的p-r包住了另乙個學習器的p-r曲線的時候,面積大的p-r曲線對應的學習器效果比較好;若要量化的,可以畫出一條平衡線使的查全率和查準率相等的時候;比較查全率和查準率的大小;數值大的分類器效果好;

我們在查全率和查準率的基礎上又引入乙個參考指標;f

當 b>1的時候,查全率影響大;b<1 的時候,差準率影響大;

過擬合和欠擬合

嘗試不同的模型 既然有一種可靠的方法來測量模型精度,那麼可以嘗試使用其他模型,並檢視哪種模型可以提供最佳 但是對模型有什麼選擇?可以在scikit learn的文件中看到決策樹模型有很多選項 比您長期想要或需要的更多 最重要的選項決定了樹的深度。回想一下這個微課程的第一課,樹的深度是衡量它在進行 之...

欠擬合和過擬合

解決欠擬合問題,可以從以下三個方面入手 1 增加特徵項 在大多數情況下出現過擬合是因為沒有準確把握資料的主要特徵,可以嘗試在模型中加入更多的和原始資料有重要相關性的特徵來尋連搭建的模型,著牙嗎嗯得到的模型可能會有更好的泛化能力。2 構造複雜的多項式 3 減少正則化引數 解決過擬合問題 1 增大訓練的...

過擬合和欠擬合

乙個假設在訓練資料上,能夠獲得比其他假設更好的擬合,但是在訓練資料外的資料集上卻不能很好的擬合資料,此事認為這個模型出現了過擬合現象 模型過於複雜 原因 原始特徵過多,存在一些嘈雜特徵,模型過於複雜是因為模型嘗試去兼顧各個測試資料點 解決辦法 乙個假設在訓練集上不能獲得更好的擬合,但是在訓練資料集以...