機器學習中防止過擬合的處理方法

我們都知道，在進行資料探勘或者機器學習模型建立的時候，因為在統計學習中，假設資料滿足獨立同分布（i.i.d，independently and identically distributed），即當前已產生的資料可以對未來的資料進行推測與模擬，因此都是使用歷史資料建立模型，即使用已經產生的資料去訓練，然後使用該模型去擬合未來的資料。但是一般獨立同分布的假設往往不成立，即資料的分布可能會發生變化（distribution drift），並且可能當前的資料量過少，不足以對整個資料集進行分布估計，因此往往需要防止模型過擬合，提高模型泛化能力。而為了達到該目的的最常見方法便是：正則化，即在對模型的目標函式（objective function）或代價函式（cost function）加上正則項。

在對模型進行訓練時，有可能遇到訓練資料不夠，即訓練資料無法對整個資料的分布進行估計的時候，或者在對模型進行過度訓練（overtraining）時，常常會導致模型的過擬合（overfitting）。如下圖所示：

通過上圖可以看出，隨著模型訓練的進行，模型的複雜度會增加，此時模型在訓練資料集上的訓練誤差會逐漸減小，但是在模型的複雜度達到一定程度時，模型在驗證集上的誤差反而隨著模型的複雜度增加而增大。此時便發生了過擬合，即模型的複雜度公升高，但是該模型在除訓練集之外的資料集上卻不work。

為了防止過擬合，我們需要用到一些方法，如：early stopping、資料集擴增（data augmentation）、正則化（regularization）、dropout等。

對模型進行訓練的過程即是對模型的引數進行學習更新的過程，這個引數學習的過程往往會用到一些迭代方法，如梯度下降（gradient descent）學習演算法。early stopping便是一種迭代次數截斷的方法來防止過擬合的方法，即在模型對訓練資料集迭代收斂之前停止迭代來防止過擬合。

early stopping方法的具體做法是，在每乙個epoch結束時（乙個epoch集為對所有的訓練資料的一輪遍歷）計算validation data的accuracy，當accuracy不再提高時，就停止訓練。這種做法很符合直觀感受，因為accurary都不再提高了，在繼續訓練也是無益的，只會提高訓練的時間。那麼該做法的乙個重點便是怎樣才認為validation accurary不再提高了呢？並不是說validation accuracy一降下來便認為不再提高了，因為可能經過這個epoch後，accuracy降低了，但是隨後的epoch又讓accuracy又上去了，所以不能根據一兩次的連續降低就判斷不再提高。一般的做法是，在訓練的過程中，記錄到目前為止最好的validation accuracy，當連續10次epoch（或者更多次）沒達到最佳accuracy時，則可以認為accuracy不再提高了。此時便可以停止迭代了（early stopping）。這種策略也稱為「no-improvement-in-n」，n即epoch的次數，可以根據實際情況取，如10、20、30……

在資料探勘領域流行著這樣的一句話，「有時候往往擁有更多的資料勝過乙個好的模型」。因為我們在使用訓練資料訓練模型，通過這個模型對將來的資料進行擬合，而在這之間又乙個假設便是，訓練資料與將來的資料是獨立同分布的。即使用當前的訓練資料來對將來的資料進行估計與模擬，而更多的資料往往估計與模擬地更準確。因此，更多的資料有時候更優秀。但是往往條件有限，如人力物力財力的不足，而不能收集到更多的資料，如在進行分類的任務中，需要對資料進行打標，並且很多情況下都是人工得進行打標，因此一旦需要打標的資料量過多，就會導致效率低下以及可能出錯的情況。所以，往往在這時候，需要採取一些計算的方式與策略在已有的資料集上進行手腳，以得到更多的資料。

通俗得講，資料機擴增即需要得到更多的符合要求的資料，即和已有的資料是獨立同分布的，或者近似獨立同分布的。一般有以下方法：

正則化方法是指在進行目標函式或代價函式優化時，在目標函式或代價函式後面加上乙個正則項，一般有l1正則與l2正則等。

正則是通過在代價函式後面加上正則項來防止模型過擬合的。而在神經網路中，有一種方法是通過修改神經網路本身結構來實現的，其名為dropout。該方法是在對網路進行訓練時用一種技巧（trick），對於如下所示的三層人工神經網路：

對於上圖所示的網路，在訓練開始時，隨機得刪除一些（可以設定為一半，也可以為1/3，1/4等）隱藏層神經元，即認為這些神經元不存在，同時保持輸入層與輸出層神經元的個數不變，這樣便得到如下的ann：

然後按照bp學習演算法對ann中的引數進行學習更新（虛線連線的單元不更新，因為認為這些神經元被臨時刪除了）。這樣一次迭代更新便完成了。下一次迭代中，同樣隨機刪除一些神經元，與上次不一樣，做隨機選擇。這樣一直進行瑕疵，直至訓練結束。

dropout方法是通過修改ann中隱藏層的神經元個數來防止ann的過擬合。具體可參見這裡。

機器學習中防止過擬合的處理方法

機器學習中防止過擬合的處理方法

機器學習中防止過擬合方法

深度學習中過擬合與防止過擬合的方法

機器學習中防止過擬合的處理方法

機器學習中防止過擬合的處理方法

機器學習中防止過擬合方法

深度學習中過擬合與防止過擬合的方法

相關推薦