《統計學習方法》(第二版)1.4 1.5
當評估時使用的損失函式給定時,訓練誤差和測試誤差成為學習方法評估的標準。
測試誤差反映了學習方法對未知的測試資料集的**能力(泛化能力[1]
)。當選擇的模型複雜度過大時,過擬合現象就會發生。
過擬合是指學習時選擇的模型所包含的引數過多,以至出現這一模型對已知資料**得很好,但對未知資料**得很差的現象。
兩種常用的模型選擇方法:正則化和交叉驗證
如前所示,正則化是結構風險最小化策略的實現,具體參見:
正則化項可以取不同的形式。
e.g.回歸問題:損失函式是平方損失。
各個範數解釋參考:
正則化符合奧卡姆剃刀原理:在所有可能選擇的模型中,能夠很好地解釋已知資料並且十分簡單才是最好的模型,也就是應該選擇的模型。
交叉驗證:重複地使用資料,將切分的資料進行組合。
簡單交叉驗證
隨機地將資料分為兩部分,分別是訓練集和測試集。
s折交叉驗證 s-fold cross validation
隨機地將資料分為s個互不相交、大小相同的子集,利用s-1個子集作為訓練集,餘下的1個作為測試集;將s種選擇重複進行,選擇s次中平均測試誤差最小的。
留一交叉驗證
s折交叉驗證中s=n。適合資料缺乏的情況。n為給定資料集的容量。
測試誤差評價泛化能力依賴於測試資料集,很有可能不可靠。 ↩︎
統計學習及監督學習概論(4)
統計學習方法 第二版 1.6 1.8 用學到的模型 hat f 對未知資料 的誤差即為泛化誤差 generalization error 泛化誤差反映了學習方法的泛化能力。事實上,泛化誤差就是所學習到的模型的期望風險。泛化誤差上界 generalization error bound 性質 是樣本容...
統計學習及監督學習概論(2)
統計學習方法 第二版 1.3 模型就是所要學習的條件概率分布或決策函式。損失函式和風險函式 損失函式度量模型一次 的好壞。風險函式度量平均意義下模型 的好壞。損失函式loss function 代價函式cost function 風險函式risk function r f e p l y,f x b...
統計學習及監督學習概論(1)
統計學習方法 第二版 1.1 1.2 statistical learning,關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。學習,即乙個系統能夠通過執行某個過程改進它的效能。基本假設 同類資料具有一定的統計規律性 資料型別 離散變數 連續變數 得到乙個有限的訓練資料 t...