1 統計學習方法三要素
model + strategy + algorithm
1.1 strategy
loss function l(y, f(x))
risk function r(f) = e [l(y, f(x))],也就是損失函式的期望
erm(empirical risk minimization): 經驗風險最小化 min(l)
e.g., mle(maximum likelihood estimation)
but,over-fitting
srm(structure risk minimization): 結構風險最小化 min(l) + regularization + penalty term
(j(f): complexity of the model)
e.g., map(maximum posterior probability)
2 模型評估
2.1 test_error & train_error
2.2 regularization
for 選擇er & complexity同時小的模型 (occam』s razor)
2.3 cross validation
適用於:資料不充足時
反覆使用資料,以此選擇模型
3 泛化能力評估
本質是期望風險
*訓練誤差小, 泛化誤差小?
4 生成模型與判別模型
4.1 生成模型(條件概率)
e.g.,
*可還原聯合概率密度
*收斂速度快
4.2 判別模型
e.g, k-means, svm , logistic regression
*準確率高
*抽特徵簡化學習
5 分類
(skip)
6 標註
隱馬爾科夫、條件隨機場
//感覺多用於nlp
7 回歸
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
統計學習方法筆記1 統計學習方法概論
統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...
統計學習方法(機器學習) 1 統計學習方法概要
泛化能力 生成模型與判別模型 監督學習的三類問題 正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化值越大。正則化的一般形式 這裡的第一項是經驗風險,第二項是正則化項。第一項經驗風險較小的模型可能比較複雜 有多個非0引數...