首先明白乙個事實,那就是如果我們在某個訓練集上訓練擬合得到乙個模型,那麼顯然,這個模型在這個訓練集上的訓練錯誤很有可能會比實際上的泛化錯誤(generalization error)會低(模型overfitting)。
假如我們把資料集分成 訓練集 和 測試集。然後,在訓練集上訓練得到幾個模型,我們想從中選擇乙個我們認為最好的模型。我們該如何做選擇呢?
但是,我們知道,訓練錯誤最小,很可能是這個模型過度擬合;因此,這個模型的 實際 泛化錯誤(generalization error)很大。換句話說,如果把這些模型放在測試集上進行測試,訓練錯誤最小的那個模型很可能測試錯誤很大。所以,這種方法不可行。
嗯,是不錯,但是如果我們想知道這個模型的 泛化錯誤(generalization error)是多少該怎麼辦? 直接使用測試錯誤嗎?顯然這樣做不好,前面提到,這個錯誤值往往 很可能 比實際的泛化錯誤 小。
那該 怎麼辦 呢?
首先,把資料集分成三部分:訓練集、驗證集(交叉驗證集 cross validation set)、測試集;
其次,在訓練集上訓練得到 幾個模型;
接著,把這些模型放在驗證集上 進行驗證,選擇驗證錯誤最小的那個模型;
最後,把這個模型放在測試集上 進行測試,計算得到它的測試錯誤,這個測試錯誤 就可以當成它的 泛化錯誤(generalization error)。
機器學習 模型選擇
第八課 機器學習簡單介紹 第九節 模型選擇 引入包 import pandas as pd import numpy as np from sklearn.model selection import train test split 準備資料集 載入資料 iris data pd.read csv...
機器學習模型 知乎 機器學習 模型選擇與評價
交叉驗證 首先選擇模型最簡單的方法就是,利用每一種機器學習演算法 邏輯回歸 svm 線性回歸等 計算訓練集的損失值,然後選擇其中損失值最小的模型,但是這樣是不合理的,因為當訓練集不夠 特徵過多時容易過擬合,那麼訓練集的損失值就會不斷變小,但是此時針對測試集可能損失值很高,所以訓練集上的損失值是無法衡...
機器學習模型的度量選擇一
作者 alvira swalin 編譯 vk medium 第一部分主要討論回歸度量 在後現代主義的世界裡,相對主義以各種各樣的形式,一直是最受歡迎和最受詬病的哲學學說之一。相對主義認為,沒有普遍和客觀的真理,而是每個觀點都有自己的真理。在這篇文章中,我將根據目標和我們試 決的問題來討論每個錯誤度量...