正則化和交叉驗證

2021-09-11 23:34:46 字數 678 閱讀 3331

偏差:描述的是**值(估計值)的期望與真實值之間的差距。偏差越大,越偏離真實資料集。

方差:描述的是**值的變化範圍,離散程度,也就是離其期望值的距離。方差越大,**結果資料的分布越散。

high bias(高偏差)就是欠擬合,high variance(高方差)就是過擬合。

在損失函式上新增了正則化項,可以對模型中的引數進行約束,從而降低模型的過擬合程度。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化值就越大。常見的正則化項是模型引數向量的範數。正則化符合奧卡姆剃刀原理,即選擇能很好的解釋訓練資料並且十分簡單的模型。

在回歸問題中,常見的正則化有l1正則化和l2正則化。

對於線性回歸模型,使用l1正則化的模型稱為lasso回歸,使用l2正則化的模型叫做ridge回歸(嶺回歸)。

資料充足時,模型選擇的一種簡單方法:隨機的將資料集切分為三部分,分別為訓練集、驗證集和測試集。訓練集用來訓練模型,驗證集用於模型的選擇,測試集用於最終對學習方法的評估。在學習到的不同複雜度的模型中,選擇對驗證集有最小**誤差的模型。

當資料不充足時,常採用交叉驗證的方法來選擇模型。交叉驗證的基本想法:把給定資料進行切分,將切分的資料集組合為訓練集與測試集,在此基礎上反覆地進行訓練、測試以及模型選擇。

交叉驗證分為以下幾種:

正則化與交叉驗證

1 正則化 模型選擇的典型方法是正則化。正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或者罰項,正則化項符合奧卡姆剃刀原理。奧卡姆剃刀原理應用於模型選擇時變為一下想法 在所有可能選擇的模型中,能夠很好地解釋已知資料並且十分簡單才是好模型。從貝葉斯估計的角度來看,正則化項對應於模型的先...

誤差 過擬合 正則化 交叉驗證 泛化能力詳解

機器學習的目的就是使學習得到的模型不僅對訓練資料有好的表現能力,同時也要對未知資料具有很好的 能力,因此給定損失函式的情況下,我們可以得到模型的訓練誤差 訓練集 和測試誤差 測試集 根據模型的訓練誤差和測試誤差,我們可以評價學習得到的模型的好壞。同時需要注意的是,統計學習方法具體採用的損失函式未必是...

泛化誤差,交叉驗證和特徵選擇

機器學習的領域內涉及了大量的學習演算法。演算法多了,如何評價乙個演算法效能的優良程度,如何為特定的問題選擇乙個合適的演算法,這都是需要解決的問題。泛化誤差,交叉驗證和特徵選擇就分別在不同的層次上解決了這個問題。要評價乙個 演算法的優劣,標準無非就是比較 結果和真實結果的差別,差別越小,這個演算法效能...