統計學習 統計學習三要素

2022-07-07 04:24:14 字數 965 閱讀 4585

模型是所要學習的條件概率分布或者決策函式。

統計學習的目的在於從假設空間中選取最優模型。故需要引入損失函式與風險函式。

損失函式:衡量模型一次**的好壞。

風險函式:衡量平均意義模型**的好壞。

\[l(y,f(x))=\begin 1, y \neq f(x)\\ 0, y = f(x)\\ \end

\]\[l(y,f(x))=(y - f(x))^2

\]\[l(y,f(x))=|y - f(x)|

\]\[l(y,f(x))=-logp(y|x)

\]損失函式值越小,模型就越好。

模型的輸入、輸出(x,y)是隨機變數,遵循聯合分布p(x,y),損失函式的期望

\[r_(f)=e_[l(y,f(x))]

\]期望風險\(r_(d)\)是模型關於聯合分布的期望損失,經驗風險\(r_(f)\)是模型關於訓練樣本集的平均損失。根據大數定律,當樣本n趨近於無窮時,經驗風險趨於期望風險。

當樣本容量足夠大時,經驗風險最小化能保證有很好的學習效果,極大似然估計就是經驗風險最小化的例子(當模型是條件概率分布,損失函式是對數函式時,經驗風險最小化就等價與極大似然估計)。

但當樣本容量很小時,經驗風險最小化的學習效果未必很好,會產生過擬合現象。

結構風險:在經驗風險上加上模型複雜度的正則化項或懲罰項

\[r_(f) = \frac\sum_^nl(y_,f(x_)) + \lambda j(f)

\]j(f)為模型複雜度:模型f越複雜,複雜度就越大;反之,模型f越簡單,複雜度就越小。\(\lambda \geq 0\)是係數,用來權衡經驗風險和模型複雜度

最大後驗概率估計與結構風險最小化關係:當模型是條件概率分布,損失函式是對數損失函式,模型複雜度由模型的先驗概率表示時,結構風險最小化等價於最大後驗概率估計

求解最優化問題的演算法

統計學習三要素

統計學習三要素 李航博士在 統計學習方法 一書中這樣描述統計學習方法的構成 方法 模型 策略 演算法 本人更形象地借助產品經理的視角可以模擬這樣的 方法 設想 指標 方案 下面就具體學習這三個要素 三要素是巨集觀上處理問題的一種框架 模型 統計學習首先要考慮的問題是學習什麼樣的模型。以監督學習為例,...

1 3 統計學習三要素

模型 由引數向量決定的函式族 條件概率分布函式 決策函式 需要求模型引數向量 策略 選擇最優模型的依據,如經驗風險最小還是結構風險最小來求的最佳引數 演算法 模型策略最優化,怎麼去求解引數使得引數向量和真實的引數值誤差小,並且複雜度低,既包括時間複雜度也包括空間複雜度,主要計算速度和儲存空間的考慮 ...

統計學習筆記一 統計學習三要素

統計學習的三要素為 模型 策略 演算法。一 模型 1 在監督學習當中,我們的目的是學習乙個由輸入到輸出的對映,這個對映就是模型。一般來說,模型有兩種形式,一種是概率模型 條件概率分布p y x 另一種形式是非概率模型 決策函式y f x 2 假設空間是一集合 由輸入空間到輸出空間所有對映的集合。即 ...