機器學習模型的選擇

首先明白乙個事實，那就是如果我們在某個訓練集上訓練擬合得到乙個模型，那麼顯然，這個模型在這個訓練集上的訓練錯誤很有可能會比實際上的泛化錯誤（generalization error）會低（模型overfitting）。

假如我們把資料集分成訓練集和測試集。然後，在訓練集上訓練得到幾個模型，我們想從中選擇乙個我們認為最好的模型。我們該如何做選擇呢？

但是，我們知道，訓練錯誤最小，很可能是這個模型過度擬合；因此，這個模型的實際泛化錯誤（generalization error）很大。換句話說，如果把這些模型放在測試集上進行測試，訓練錯誤最小的那個模型很可能測試錯誤很大。所以，這種方法不可行。

嗯，是不錯，但是如果我們想知道這個模型的泛化錯誤（generalization error）是多少該怎麼辦？直接使用測試錯誤嗎？顯然這樣做不好，前面提到，這個錯誤值往往很可能比實際的泛化錯誤小。

那該怎麼辦呢？

首先，把資料集分成三部分：訓練集、驗證集（交叉驗證集 cross validation set）、測試集；

其次，在訓練集上訓練得到幾個模型；

接著，把這些模型放在驗證集上進行驗證，選擇驗證錯誤最小的那個模型；

最後，把這個模型放在測試集上進行測試，計算得到它的測試錯誤，這個測試錯誤就可以當成它的泛化錯誤（generalization error）。