機器學習的訓練集驗證集和測試集

在機器學習中，最佳的資料分類情況是把資料集分為三部分，分別為：訓練集(train set)，驗證集(validation set)和測試集(test set)。

訓練集很好理解就是訓練我們的模型。那麼驗證集和測試集有什麼作用？

首先需要了解的是在乙個機器學習模型中，模型的引數分為普通引數和超引數，普通引數比如神經網路的權重矩陣等等，是可以被訓練集所訓練出來的（也就是梯度下降演算法求出）。超引數比如網路的層數、網路結點數、學習速率等，這些引數不在梯度下降演算法的更新範圍內，需要使用驗證集來調參。

那也就是說，從狹義來講，驗證集沒有參與梯度下降的過程，也就是說是沒有經過訓練的；但從廣義上來看，驗證集卻參與了乙個「人工調參」的過程，我們根據驗證集的結果調節了迭代數、調節了學習率等等，使得結果在驗證集上最優。因此，我們也可以認為，驗證集也參與了訓練。那麼就很明顯了，我們還需要乙個完全沒有經過訓練的集合，那就是測試集，我們既不用測試集梯度下降，也不用它來控制超引數，只是在模型最終訓練完成後，用來測試一下最後準確率，以看看我們訓練出來的模型的泛化能力怎麼樣。

參考：

機器學習的訓練集驗證集和測試集

機器學習訓練集驗證集測試集

機器學習中的訓練集驗證集測試集

機器學習中的訓練集驗證集測試集

機器學習的訓練集 驗證集和測試集

機器學習 訓練集 驗證集 測試集

機器學習中的訓練集 驗證集 測試集

機器學習中的訓練集 驗證集 測試集

相關推薦

機器學習的訓練集驗證集和測試集

機器學習訓練集驗證集測試集

機器學習中的訓練集驗證集測試集

機器學習中的訓練集驗證集測試集