統計學習方法筆記1概論

2021-09-12 19:45:34 字數 632 閱讀 1808

1.過擬合 :由於訓練集中存在噪音,模型學習的引數能擬合訓練集 但在測試集中不一定擬合 ,所以有過擬合;需要同時考慮對已知和未知的**能力

改變引數 看測試誤差的走勢 先降後公升中間點是比較好的選擇

2.模型的複雜度:多項式的次數 然後經驗風險最小化

3.模型的選擇:正則化和交叉驗證

正則化:結構風險最小化策略

經驗風險+正則化項/罰項

作用:選擇經驗風險和模型複雜度同時較小的模型

交叉驗證:模型選擇方法

一般的模型選擇方法, 需要樣本足夠充足,隨機將資料分為三部分,訓練集,驗證集,測試集(訓練,模型選擇,評估), 在學習到的模型選擇對驗證集有最小**誤差的模型。對於樣本不充足,採用交叉驗證

交叉驗證的基本思想:重複地使用資料。切分資料, 組合成訓練集和測試集,在此基礎上反覆訓練測試和模型選擇。

a. 簡單交叉驗證,不同模型用於訓練集, 在測試集上評估,選擇最好的模型

b.s折交叉驗證:分為s個不相交且大小相同的子集,s-1個訓練,剩下的測試,s種選擇重複進行。不同模型中選擇平均測試誤差最小的模型。

c. 留一交叉驗證:s=n時, 資料缺乏

4.泛化能力:模型對未知的**能力, 一般測試誤差來評價(依賴測試資料集)

公式好多啊, 待證明整理

統計學習方法筆記1 統計學習方法概論

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...

統計學習方法 1 統計學習方法概論

統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...

1 統計學習方法概論

定義 如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習 物件 資料 data 從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,最終回到對資料的分析與 中去.前提 具有某種共同性質的資料,其具有一定的統計規律性 分類 監督學習,非監督學習,半監督學習,強化學習 基本概念 輸入空...