1. 統計學習的方法是基於資料構建統計模型從而對資料進行**與分析。統計學習由監督學習,非監督學習,半監督學習和強化學習等組成。
2. 輸入變數和輸出變數都是連續變數,稱為回歸問題;輸出變數為有限個離散變數的**問題為分類問題;
輸入變數和輸出變數均為變數序列的**問題稱為標註問題。
3. 統計學習常用的損失函式 0-1損失函式,平方損失函式,絕對損失函式,對數損失函式;
大數定律:概率是頻率的穩定值,頻率依概率收斂於概率。強大數定律:依概率1收斂;弱大數定律:依概率收斂。
中心極限定理是說:樣本的平均值約等於總體的平均值;
不管總體是什麼分布,任意乙個總體的樣本平均值都會圍繞在總體的整體平均值周圍,並且呈正態分佈。中心極限定理的作用:在沒有辦法得到總體全部資料的情況下,我們可以用樣本來估計總體;根據總體的平均值和標準差,判斷某個樣本是否屬於總體
4. 正則化項一般是模型複雜度的單調遞增函式,如模型引數向量的範數。
奧卡姆剃刀原理:如無必要,勿增實體。
5.交叉驗證:簡單交叉驗證,s-折交叉驗證,留一交叉驗證。
6. 生成模型:學習得到聯合概率p(x,y),然後求條件概率。
代表:樸素貝葉斯,混合高斯模型,隱馬爾可夫模型
判別模型:學習得到條件概率分布p(y|x),即在特徵x出現的情況下標記y出現的概率。
優點:需要樣本少,準確率高,不需要求解條件概率,允許對輸入進行抽象,降維等。缺點:沒有生成模型的那些優點
代表:感知機,knn,決策樹,邏輯回歸,最大熵模型,支援向量機,boosting方法,條件隨機場,cnn
資料要求:生成模型需要的資料量比較大,能夠較好地估計概率密度;而判別模型對資料樣本量的要求沒有那麼多。
二分類的常見評價指標:精確率和召回率。f1是精確率和召回率的調和平均。
統計學習方法筆記 第一章統計學習方法概論
統計學習方法第一章筆記 赫爾伯特 西蒙曾經對學習下定義 如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。現在人們提到的機器學習就是統計機器學習。統計學習包括監督學習 supervised learning 非監督學習 unsupervisedlearning 半監督學習 semi supe...
統計學習方法 第一章
1.統計學習的特點 2.統計學習的物件 對資料的基本假設 同類資料具有一定的統計規律性 3.統計學習的目的 4.統計學習方法 1.基本概念 x x 1,x 2,x i x n t x i x i 1 x i 2 x in t t x 1 y 1 x 2 y 2 x n y n 2.聯合概率分布 3....
統計學習方法第一章
1.numpy.poly1d 1,2,3 import numpy as np np.poly1d 1 2,3 poly1d 1 2,3 r np.poly1d 1 2,3 print r 1 62.from scipy.optimize import leastsq 表示scipy.optimiz...