統計學習及監督學習概論(3)

2022-03-18 15:20:37 字數 730 閱讀 9088

《統計學習方法》(第二版)1.4 1.5

當評估時使用的損失函式給定時,訓練誤差和測試誤差成為學習方法評估的標準。

測試誤差反映了學習方法對未知的測試資料集的**能力(泛化能力[1]

)。當選擇的模型複雜度過大時,過擬合現象就會發生。

過擬合是指學習時選擇的模型所包含的引數過多,以至出現這一模型對已知資料**得很好,但對未知資料**得很差的現象。

兩種常用的模型選擇方法:正則化和交叉驗證

如前所示,正則化是結構風險最小化策略的實現,具體參見:

正則化項可以取不同的形式。

e.g.回歸問題:損失函式是平方損失。

各個範數解釋參考:

正則化符合奧卡姆剃刀原理:在所有可能選擇的模型中,能夠很好地解釋已知資料並且十分簡單才是最好的模型,也就是應該選擇的模型。

交叉驗證:重複地使用資料,將切分的資料進行組合。

簡單交叉驗證

隨機地將資料分為兩部分,分別是訓練集和測試集。

s折交叉驗證 s-fold cross validation

隨機地將資料分為s個互不相交、大小相同的子集,利用s-1個子集作為訓練集,餘下的1個作為測試集;將s種選擇重複進行,選擇s次中平均測試誤差最小的。

留一交叉驗證

s折交叉驗證中s=n。適合資料缺乏的情況。n為給定資料集的容量。

測試誤差評價泛化能力依賴於測試資料集,很有可能不可靠。 ↩︎

統計學習及監督學習概論(4)

統計學習方法 第二版 1.6 1.8 用學到的模型 hat f 對未知資料 的誤差即為泛化誤差 generalization error 泛化誤差反映了學習方法的泛化能力。事實上,泛化誤差就是所學習到的模型的期望風險。泛化誤差上界 generalization error bound 性質 是樣本容...

統計學習及監督學習概論(2)

統計學習方法 第二版 1.3 模型就是所要學習的條件概率分布或決策函式。損失函式和風險函式 損失函式度量模型一次 的好壞。風險函式度量平均意義下模型 的好壞。損失函式loss function 代價函式cost function 風險函式risk function r f e p l y,f x b...

統計學習及監督學習概論(1)

統計學習方法 第二版 1.1 1.2 statistical learning,關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。學習,即乙個系統能夠通過執行某個過程改進它的效能。基本假設 同類資料具有一定的統計規律性 資料型別 離散變數 連續變數 得到乙個有限的訓練資料 t...