1. 統計學習是什麼
(1)研究物件:資料!從資料出發,提取資料特徵,抽象出資料模型,發現資料中的知識,最後回到對資料的分析和**中去。
統計學習前提:假設同類資料具有一定的**統計規律性**
(2)研究目的:對(未知)資料**與分析
(3)研究方法:基於資料構建概率統計模型,從而對資料進行**與分析。具體步驟如下:通過構建**概率統計模型**實現
考慮學習什麼樣的模型和如何學習模型,從而使模型可以對資料進行準確的**與分析,同時要盡可能**提高學習效率**
2. 統計學習的分類① 乙個有限的、獨立同分布的、用於學習的**訓練資料**集合
② 假設要學習的**模型**屬於某個函式的集合,稱為**假設空間**,即**學習模型**的集合
③ 確定模型選擇**評價準則**,即**學習的策略**
④ 從假設空間中選乙個最優模型(對已知的訓練資料及未知的測試資料在給定的評價準則下有最優的**),即**學習的演算法**
⑤ 通過學習演算法選擇**最優模型**
⑥ 利用**最優模型**對新資料進行**或分析
(1)基本分類
(2)按模型分類① 監督學習:
- 學習乙個由「輸入」到「輸出」的對映,用模型來表示。
- 分為「學習」和「**」兩個過程,由「學習系統」和「**系統」完成。
② 無監督學習:
- 從無標註資料中學習**模型(資料的類別、轉換、概率)
- 學習資料中的統計規律或潛在結構
③ 強化學習
- 智慧型系統在與環境的連續互動中學習最優行為策略的機器學習問題
- 目標是**長期累積獎勵**的最大化,通過不斷**試錯**(trail and error)
④ 半監督和主動學習
(3)按演算法分類① 概率模型 & 非概率模型
② 線性模型 & 非線性模型(主要針對非概率模型)
③ 引數化模型 & 非引數化模型
② 批量學習(batch learning)
(4)按技巧分類
3. 方法三要素① 貝葉斯方法(bayesian learning):計算給定資料條件下模型的條件概率,以此進行模型的估計以及對資料的**。
② 核方法(kernel method):不顯式定義對映,而是直接定義核函式,即對映之後在特徵空間的內積。
(1)模型:所要學習的條件概率分布(概率模型:p(x|y))或決策函式(非概率模型:y=f(x))
(2)策略:從假設空間中選取最優模型
(3)演算法① 損失函式和風險函式
損失函式:度量模型一次**的好壞
風險函式:度量平均意義下模型**的好壞
② 經驗風險最小化和結構風險最小化
4. 模型評估與模型選擇
(1)訓練誤差與測試誤差
(2)過擬合與模型選擇
5. 正則化與交叉驗證
(1)正則化
(2)交叉驗證
6. 泛化能力① 簡單交叉驗證
② s折交叉驗證
③ 留一交叉驗證
(1)泛華誤差
(2)泛華誤差上界
7. 生成模型與判別模型
8. 監督學習應用
(1)分類問題
(2)標註問題
(3)回歸問題
《統計學習方法》學習筆記
最近把李航的 統計學習方法 看完了,感覺很不錯,從概論到各個統計方法,由易到難層層推進,每個方法都有詳盡的數學公式推倒,感覺很適合有一定數學功底的人作為機器學習入門來看。可惜本人自幼愚鈍,資質欠佳,以前學的概率論與數理統計的知識都忘得差不多了,看得雲裡霧裡的,前面還好,越到後面越看不明白,遇到不懂的...
統計學習方法學習規劃
人類簡史 作者尤瓦爾 赫拉利,在他的書中反覆強調統計學的重要性 華為老闆任正非,在央視採訪中提到要特別重視統計學的研究 知乎上各種大佬都說統計學很有用 在終極的分析中,一切知識都是歷史 在抽象的意義下,一切科學都是數學 在理性的基礎上,所有的判斷都是統計 c.r.rao在 統計與真理 的扉頁上寫下的...
統計學習方法 學習筆記(1)
統計學習方法的三要素 模型 策略和演算法,統計學習的物件是資料 方法 模型 策略 演算法。監督學習,也就是利用訓練資料學習乙個模型,在用這個模型對測試樣本進行 而由於訓練資料是由人為提供的,所以稱之為監督學習。1 模型 模型即是假設空間對應的條件概率或者是決策樹函式。2 策略 這裡引入了損失函式和風...