對機器學習中學習曲線的理解

2021-06-23 00:40:15 字數 851 閱讀 1771

學習曲線是一條關於樣本個數和經驗損失函式之間的曲線,對機器學習中的過程進行判斷,進一步調整學習引數,提高假設模型的泛化能力。

在上面的圖中,藍線表示經驗損失函式隨著訓練樣本的增多而變大,相反綠線呈現出反向的關係。綠線是交叉驗證樣本,計算交叉驗證的樣本損失函式使用到的權值引數是由訓練樣本得到的,與該權值引數保持一致。

從圖中可以看出無論是藍線還是綠線,損失函式值都很高,這種現做

象叫「偏量(bias)」。

相對於另一種情況:

藍線和綠線的損失函式值都挺小,但兩線的間隔始終存在,這種現象叫做「方差(variance)」

「方差」現象表示的是學習中的過擬合,

如何解決過擬合:

外在驅使,增加訓練樣本個數,提高了訓練樣本的複雜度

內在驅動,降低特徵值的個數(比如多項式擬合中的冪次等級)

正規化處理,使用lambda權衡模型複雜度(theta)

」偏差「現象表示學習的模型欠擬合,解決欠擬合:

增加假設模型的複雜度,欠擬合的本質是一些特徵量在模型中未考慮。

減少lambda,因為模型還未達到該有的複雜度,真正本質的原因就在於lambda就是表示bias偏量大小的(如果你bayes estimate學得好的話,能理解我這背後的深意)!

在」偏差「現象中,通過增加訓練樣本的個數是無效的,因為的模型沒有捕捉到足夠的特徵資訊,學再多也是白學。

因此是否加大訓練樣本的個數取決於是否有大的方差。

機器學習 學習曲線

檢視模型的學習效果 通過學習曲線可以清晰的看出模型對資料的過擬合和欠擬合 len x train 個訓練樣本,訓練出 len x train 個模型,第一次使用乙個樣本訓練出第乙個模型,第二次使用兩個樣本訓練出第二個模型,第 len x train 次使用 len x train 個樣本訓練出最後乙...

機器學習中學習曲線與模型複雜化

學習曲線 讓我們根據模型通過視覺化圖形從資料中學習的能力來 偏差與方差之間的關係。機器學習中的學習曲線是一種視覺化圖形,能根據一系列訓練例項中的訓練和測試資料比較模型的指標效能。在檢視資料與誤差之間的關係時,我們通常會看到,隨著訓練點數量的增加,誤差會趨於下降。由於我們嘗試構建從經驗中學習的模型,因...

機器學習筆記5 學習曲線

sklearn中的學習曲線函式可以幫到我們。它可以讓我們通過資料點來了解模型表現的好壞。可以先引入這個模組 from sklearn.learning curve import learning curve sklearn 0.17 from sklearn.model selection impo...