機器學習中的高偏差指的是模型的損失函式校驗中,訓練集和測試集error大,模型欠擬合;高方差是指訓練集的error小,測試集的error大,模型過擬合。通俗來說,高偏差問題就是採用訓練集訓練效果都不太好的模型,而高偏差問題就是訓練效果好,但是測試效果不好的模型,繪製學習曲線有助於了解演算法是高偏差問題還是高方差問題,
針對高偏差的優化方向:
針對高方差的優化方向:
一般在做機器學習時,通常會將資料集分為訓練集和測試集,用訓練集來訓練、測試集做驗證。但是這種方式的弊端就是,模型對資料集的劃分相對敏感,而且可能對未來的新資料不適應(偏差過高)。此外,也有的方法會將資料集分為訓練集、驗證集和測試集,通過訓練、驗證集得出的最優演算法,用於測試集,這樣可以有效規避一些新資料不適應的問題,但是問題依舊存在。
因此交叉驗證就應運而生,交叉驗證顧名思義,就是將資料集分為多個部分,來進行訓練和測試,最終得出乙個評價指標,交叉驗證也是模型評價方法的一種優化:
學習曲線和驗證曲線可用於觀察模型的優劣性,學習曲線和驗證曲線通常也需要採用交叉驗證的方式來計算,提高可靠性。
網路搜尋(gridsearch)通常用於模型的超引數選擇,模型的引數分為兩類:
巢狀式交叉驗證
這是一種計算量更大的網路搜尋,做法是在k折交叉驗證上再套一層內迴圈(再套一層交叉驗證),目的是為了讓模型更能適應未見過的資料。具體做法是,k折中,每次分到的訓練集又採用交叉驗證分為訓練集和驗證集,內部交叉驗證完成後,得出的模型給外側的測試機進行評價。
模型的評價效能指標通常有很多種:
機器學習評價方法
precision 的結果中 正確的正例 的結果中所有為1的值 recall 的結果中 正確的正例 真實存在的正例數 所以p r curve 對負樣本的比例不敏感 1 真陽性 true positive,tp 檢測不健康,且實際不健康 正確肯定的匹配數目 2 假陽性 false positive,f...
機器學習模型 知乎 機器學習 模型選擇與評價
交叉驗證 首先選擇模型最簡單的方法就是,利用每一種機器學習演算法 邏輯回歸 svm 線性回歸等 計算訓練集的損失值,然後選擇其中損失值最小的模型,但是這樣是不合理的,因為當訓練集不夠 特徵過多時容易過擬合,那麼訓練集的損失值就會不斷變小,但是此時針對測試集可能損失值很高,所以訓練集上的損失值是無法衡...
機器學習模型評價指標 混淆矩陣
在機器學習領域中,混淆矩陣 confusion matrix 是一種評價分類模型好壞的形象化展示工具。其中,矩陣的每一列表示的是模型 的樣本情況 矩陣的每一行表示的樣本的真實情況。1.混淆矩陣的舉例 例如用乙個分類模型來判別乙個水果是蘋果還是梨,混淆矩陣將會模型的 結果總結成如下表所示的 模型 結果...