@(machine learning)
三要素組成乙個公式
方法 = 模型 + 策略 + 演算法
監督學習裡,模型就是待學習的條件概率分布或決策函式。
其中,條件概率分布:p̂
(y|x
) 表示在已知輸入資料的條件下,輸出為y的概率。
將其表示為函式,就是y=
f̂ (x
) 。
二者均表示輸入與輸出隨機變數之間的對映關係。
關於模型,需要理解的概念是:假設空間。
假設空間表示所有可能的條件概率分布或者決策函式。
假設空間通常是由引數向量決定的函式族。
這句非常重要:假設空間中的模型通常是無窮多個。
那麼,我們在假設空間中要選出最優模型,這無窮的空間中找到我們想要的那個,盲目遍歷就是大海撈針,下面的策略就是用於解決這個問題的方法。
在知道模型的假設空間後,自然需要考慮的乙個問題是:按照什麼樣的學習準則學習或選擇最優模型。
指導解決這個問題的方針就是這裡說的策略。
引入損失函式/代價函式,風險函式的概念。
在具體的應用中,比如tf框架下,我們常常用到損失函式,但是對於風險函式是不多見的。
損失函式 vs. 風險函式
損失函式:度量模型一次**的好壞
風險函式:平均意義下度量模型的好壞
在統計裡,平均的意義就是我們說的期望,牽涉到的是每類出現的概率。
損失函式裡的一次**,指的是給定輸入,選取的模型會得出乙個**輸出值,這個值和真實值可能有差別,損失函式的作用就是來衡量這個**的錯誤程度。
經典的損失函式有:
損失函式的通用判定是損失函式值大就是**的不好,越小則**的越好。
有損失函式的鋪墊,風險函式就好理解了,只是加上了一點點巨集觀的角度,上面損失函式是一次輸入輸出的判定,把所有的輸入輸出結合在一起,輸入輸出(x,y)遵循聯合分布,求出乙個輸入輸出的損失函式的期望:re
xp(f
)=ep
[l(y
,f(x
))]=
∫χ×γ
l(y,
f(x)
)p(x
,y)d
xdy
如果我們知道了聯合分布,求出p(
y|x)
就根本不費事,所以就不必再大費周章的學習。所以實際上,聯合分布是未知的。這樣,就導致風險函式,也稱之為期望損失是不可知的,就需要其他方法來近似。
近似的方法很粗暴:re
mp(f
)=1n
∑i=1
nl(y
i,f(
xi))
這個也稱作經驗風險。再祭出大數定律的大旗,得出可以用經驗風險來估計期望風險。
現實依舊殘酷,現實中的訓練樣本數目距離這裡的大數還差得遠,導致此類估計並不理想。由此引入矯正的手段。
推導出兩個基本策略:
經驗風險最小化
這部分最主要的目的就是找到選出最優模型的方法。
經驗風險最小化策略非常簡單:經驗風險最小的模型就是最優模型。
極大似然估計裡,模型是條件概率,損失函式是對數損失函式,極大似然估計就是經驗風險最小化。
這個觀點從原理上解釋了極大似然估計是如何起作用的,之前在概率論裡並不能很好理解為什麼最大似然函式可以起作用,只是在套公式而已。
經驗風險過擬合在樣本量小時將遇到極大挑戰,模型過度學習了訓練資料的分布,妥妥的帶來過擬合現象。
結構風險最小化
為防止過擬合提出的策略。等價於正則化|regularization.簡單說就是為經驗風險加上一些表示模型複雜度的正則化項 | regularizer,或者稱之為罰項 | penalty term.
定義如下:rs
rm(f
)=1n
∑i=1
nl(y
i,f(
xi))
+λj(
f)像是在經驗風險定義上加上一些雜訊,使得模型在優化這個損失函式時更加健壯。
這裡,j(f
) 表示的是模型的複雜度,是定義在假設空間
ϝ 上的泛函。
泛函我並不熟悉。簡單理解正則化項就是,模型越複雜,複雜度j(
f)就越大。λ≤
0 ,是調節係數,用於權衡經驗風險和模型複雜度。
經驗風險最小化的策略認為結構風險最小的模型就是最優的模型。
由此,監督學習問題變成了經驗風險和結構風險最小化問題。經驗風險函式或者結構化風險函式就是最優化的目標函式。
就是學習模型的具體計算方法。
上面知道了最優化的目標函式,但是用什麼方法來最優化是待確定的,也就是這部分需要考慮的問題。
問題如果存在顯示的解析解,這樣的話問題就比較簡單。常常解析解並不存在,需要用數值計算的方法,並使求解過程高效。這部分就是針對這個內容,更具體的內容在後面詳細展開。
– 學習自李航《統計學習方法》
統計學習三要素
統計學習三要素 李航博士在 統計學習方法 一書中這樣描述統計學習方法的構成 方法 模型 策略 演算法 本人更形象地借助產品經理的視角可以模擬這樣的 方法 設想 指標 方案 下面就具體學習這三個要素 三要素是巨集觀上處理問題的一種框架 模型 統計學習首先要考慮的問題是學習什麼樣的模型。以監督學習為例,...
統計學習 統計學習三要素
模型是所要學習的條件概率分布或者決策函式。統計學習的目的在於從假設空間中選取最優模型。故需要引入損失函式與風險函式。損失函式 衡量模型一次 的好壞。風險函式 衡量平均意義模型 的好壞。l y,f x begin 1,y neq f x 0,y f x end l y,f x y f x 2 l y,...
1 3 統計學習三要素
模型 由引數向量決定的函式族 條件概率分布函式 決策函式 需要求模型引數向量 策略 選擇最優模型的依據,如經驗風險最小還是結構風險最小來求的最佳引數 演算法 模型策略最優化,怎麼去求解引數使得引數向量和真實的引數值誤差小,並且複雜度低,既包括時間複雜度也包括空間複雜度,主要計算速度和儲存空間的考慮 ...