泛化能力
生成模型與判別模型
監督學習的三類問題
正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化值越大。正則化的一般形式:
這裡的第一項是經驗風險,第二項是正則化項。第一項經驗風險較小的模型可能比較複雜(有多個非0引數),這時第二項模型複雜度就會高。正則化的作用就是選擇經驗風險與模型複雜度同時較小的模型。
比如,在回歸問題中,損失函式是平方損失,正則化項可以是引數向量的l
2l_2
l2範數,這裡的∣∣w
∣∣||w||
∣∣w∣
∣表示引數向量w
ww的l
2l_2
l2範數:
正則化項也可以是引數向量的l
1l_1
l1範數,這裡的∣∣w
∣∣1||w||_1
∣∣w∣∣1
表示引數向量w
ww的l
1l_1
l1範數:
如果樣本資料充足,可以將資料集切分成三部分:訓練集、驗證集、測試集,訓練集用來訓練模型,驗證集用來模型的選擇,測試集用於最終的評估。當資料不充足時,採用交叉驗證,主要有以下三種:
學習方法的泛化能力指的是模型對未知資料的**能力,通過泛化誤差來評估泛化能力,事實上,泛化誤差就說所學到模型的期望風險。
學習方法的泛化能力分析往往通過研究泛化誤差上界進行,泛化誤差上界是樣本容量的函式,樣本容量增加時,泛化上界趨於0;是假設空間容量的函式,假設空間容量越大,模型就越難學,泛化誤差上界就越大。
對於二分類問題,當假設空間是有限個函式的集合f=f
1,f2
,...
,,fd
f= f=
f1,
f2,
...,
,fd
時,對任意乙個函式f∈f
f∈ff∈
f,至少以概率1−δ
1-δ1−
δ以下列不等式成立:
不等式的左邊是泛化誤差,右邊是泛化誤差上界。其中,
監督學習方法可以分為生成方法與判別方法,所學到的模型分別稱為生成模型和判別模型。
生成方法的模型表示了給定輸入x
xx產生輸出y
yy的生成關係,典型的生成模型:樸素貝葉斯和隱馬爾可夫模型。
判別方法由資料直接學習決策函式f(x
)f(x)
f(x)
或條件概率分布p(x
,y)p(x,y)
p(x,y)
,典型的包括:knn、感知機、決策樹、lr、svm、最大熵模型等等。
分類問題
標註問題
回歸問題
二分類問題常用的評價指標是精確率和召回率
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
統計學習方法筆記1 統計學習方法概論
統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...
統計學習方法1
1 統計學習方法三要素 model strategy algorithm 1.1 strategy loss function l y,f x risk function r f e l y,f x 也就是損失函式的期望 erm empirical risk minimization 經驗風險最小化...