方法=模型+策略+演算法
模型:1.決策函式的集合
2.引數空間
3.條件概率的集合
4.引數空間
策略:損失函式
風險函式
o-1損失函式
平方損失函式
絕對損失函式
對數損失函式
損失函式的期望
經驗風險
演算法:如果最優化問題有顯式的解析式,演算法比較簡單。但通常解析式不存在,就需要數值計算的方法。
正則化與交叉驗證
交叉驗證:訓練集 用於訓練模型
驗證集 用於模型選擇
測試集 同於最終對學習方法的評估
1.簡單交叉驗證
2.s折交叉驗證
3.留一交叉驗證
泛化能力
泛化誤差性質:樣本容量增加,泛化誤差趨於0
生成模型與判別模型
生成模型:
條件概率
樸素貝葉斯法和隱馬爾可夫模型
常見:
1. 判別式分析
2. 樸素貝葉斯native bayes
4. k近鄰knn
5. 隱馬爾科夫模型hmm
6. 貝葉斯網路
7. sigmoid belief networks
8. 馬爾科夫隨機場markov random fields
9. 深度信念網路dbn
10. 隱含狄利克雷分布簡稱lda(latent dirichlet allocation)
11. 多專家模型(the mixture of experts model)
判別方法由資料直接學習決策函式f(x)或田間概率分布 p(y|x)作為**的模型,即判別模型
k近鄰法、感知機、決策樹、logistic回歸模型、最大熵模 型、支援向量機、提公升方法和條件隨機場
各自優缺點:
生成方法:可還原出聯合概率分布p(x,y), 而判別方法不能。 生成方法的收斂速度更快,當樣本容量增加的時候,學到的 模型可以更快地收斂於真實模型;當存在隱變數時,仍可以 使用生成方法,而判別方法則不能用。
判別方法:直接學習到條件概率或決策函式,直接進行預 測,往往學習的準確率更高;由於直接學習y=f(x)或p(y|x), 可對資料進行各種程度上的抽象、定義特徵並使用特徵,因 此可以簡化學習過程。
分類問題
二分類問題是很重要的問題,我們需要認真計算其中的準確率和召回率。
二分類指標
tp true positive
fn false negative
fp false positive
tn true negative
精確率
召回率
f1值
精準率和召回率和f1取值都在0和1之間,精準率和召回率高,f1值也會高,不存在數值越接近0越高的說法,應該是數值越接近1越高
回歸問題
回歸學習最常用的損失函式是平方損失函式,在此情況 下,回歸問題可以由 著名的最小二乘法(least squares) 求解。
感謝李航老師的統計學習方法
統計學習三要素
統計學習三要素 李航博士在 統計學習方法 一書中這樣描述統計學習方法的構成 方法 模型 策略 演算法 本人更形象地借助產品經理的視角可以模擬這樣的 方法 設想 指標 方案 下面就具體學習這三個要素 三要素是巨集觀上處理問題的一種框架 模型 統計學習首先要考慮的問題是學習什麼樣的模型。以監督學習為例,...
統計學習 統計學習三要素
模型是所要學習的條件概率分布或者決策函式。統計學習的目的在於從假設空間中選取最優模型。故需要引入損失函式與風險函式。損失函式 衡量模型一次 的好壞。風險函式 衡量平均意義模型 的好壞。l y,f x begin 1,y neq f x 0,y f x end l y,f x y f x 2 l y,...
1 3 統計學習三要素
模型 由引數向量決定的函式族 條件概率分布函式 決策函式 需要求模型引數向量 策略 選擇最優模型的依據,如經驗風險最小還是結構風險最小來求的最佳引數 演算法 模型策略最優化,怎麼去求解引數使得引數向量和真實的引數值誤差小,並且複雜度低,既包括時間複雜度也包括空間複雜度,主要計算速度和儲存空間的考慮 ...