統計學習及監督學習概論（3）

《統計學習方法》（第二版）1.4 1.5

當評估時使用的損失函式給定時，訓練誤差和測試誤差成為學習方法評估的標準。

測試誤差反映了學習方法對未知的測試資料集的**能力（泛化能力[1]

）。當選擇的模型複雜度過大時，過擬合現象就會發生。

過擬合是指學習時選擇的模型所包含的引數過多，以至出現這一模型對已知資料**得很好，但對未知資料**得很差的現象。

兩種常用的模型選擇方法：正則化和交叉驗證

如前所示，正則化是結構風險最小化策略的實現，具體參見:

正則化項可以取不同的形式。

e.g.回歸問題：損失函式是平方損失。

各個範數解釋參考:

正則化符合奧卡姆剃刀原理：在所有可能選擇的模型中，能夠很好地解釋已知資料並且十分簡單才是最好的模型，也就是應該選擇的模型。

交叉驗證：重複地使用資料，將切分的資料進行組合。

簡單交叉驗證

隨機地將資料分為兩部分，分別是訓練集和測試集。

s折交叉驗證 s-fold cross validation

隨機地將資料分為s個互不相交、大小相同的子集，利用s-1個子集作為訓練集，餘下的1個作為測試集；將s種選擇重複進行，選擇s次中平均測試誤差最小的。

留一交叉驗證

s折交叉驗證中s=n。適合資料缺乏的情況。n為給定資料集的容量。

測試誤差評價泛化能力依賴於測試資料集，很有可能不可靠。 ↩︎

統計學習及監督學習概論（4）

統計學習方法第二版 1.6 1.8 用學到的模型 hat f 對未知資料的誤差即為泛化誤差 generalization error 泛化誤差反映了學習方法的泛化能力。事實上，泛化誤差就是所學習到的模型的期望風險。泛化誤差上界 generalization error bound 性質是樣本容...

統計學習及監督學習概論（2）

統計學習方法第二版 1.3 模型就是所要學習的條件概率分布或決策函式。損失函式和風險函式損失函式度量模型一次的好壞。風險函式度量平均意義下模型的好壞。損失函式loss function 代價函式cost function 風險函式risk function r f e p l y,f x b...

統計學習及監督學習概論（1）

統計學習方法第二版 1.1 1.2 statistical learning，關於計算機基於資料構建概率統計模型並運用模型對資料進行與分析的一門學科。學習，即乙個系統能夠通過執行某個過程改進它的效能。基本假設同類資料具有一定的統計規律性資料型別離散變數連續變數得到乙個有限的訓練資料 t...

統計學習及監督學習概論（3）

統計學習及監督學習概論（4）

統計學習及監督學習概論（2）

統計學習及監督學習概論（1）

相關推薦