模型:由引數向量決定的函式族(條件概率分布函式/決策函式),需要求模型引數向量
策略:選擇最優模型的依據,如經驗風險最小還是結構風險最小來求的最佳引數
演算法:模型策略最優化,怎麼去求解引數使得引數向量和真實的引數值誤差小,並且複雜度低,既包括時間複雜度也包括空間複雜度,主要計算速度和儲存空間的考慮
模型的假設空間:f=或f=
引數空間:引數向量的所有取值
策略
損失函式:模型一次**的好壞度量
1.0-1損失函式
y=f(x): l(y,f(x))=1;y!=f(x):l(y,f(x))=0
2.平方損失函式
l(y,f(x))=(y-f(x))2
3.絕對損失函式
l(y,f(x))=|y-f(x)|
4.對數損失函式
l(y,p(y|x))=-logp(y|x)
風險函式/期望損失:平均意義(期望)下模型**的好壞,也可以看著損失函式的期望,由於(x,y)符合某個聯合分布p(x,y)(未知的但是存在的),風險函式是存在的,但是不可知的。
經驗風險函式:平均損失(所有損失的平均數),樣本越多,越逼近期望損失(風險函式),自然就有了用平均損失逼近期望損失的方法,注意只是在逼近。
經驗風險最小化(erm):在經驗風險逼近期望損失的情況下,求取使經驗風險最小的引數向量。
結構風險函式:由於樣本數量有限很少時,經驗風險不能很好逼近期望損失,並且會出現過擬合現象,所以有了結構風險損失,在經驗風險的基礎上加入了模型複雜度。
模型複雜度:j(f)是指定義在假設空間上的泛函,通常稱為正則化項或懲罰項,模型f越複雜,j(f)越大,反之,j(f)越小。
結構風險最小化(srm):結構風險小的其經驗風險和模型複雜度同時要小,結構風險最小等價於正則化,其中有乙個懲罰係數,用於衡量經驗風險和模型複雜度。
演算法:具體如何效率,有效的學習模型,即如何快速的求得模型的最優解(近似解)。
統計學習三要素
統計學習三要素 李航博士在 統計學習方法 一書中這樣描述統計學習方法的構成 方法 模型 策略 演算法 本人更形象地借助產品經理的視角可以模擬這樣的 方法 設想 指標 方案 下面就具體學習這三個要素 三要素是巨集觀上處理問題的一種框架 模型 統計學習首先要考慮的問題是學習什麼樣的模型。以監督學習為例,...
統計學習 統計學習三要素
模型是所要學習的條件概率分布或者決策函式。統計學習的目的在於從假設空間中選取最優模型。故需要引入損失函式與風險函式。損失函式 衡量模型一次 的好壞。風險函式 衡量平均意義模型 的好壞。l y,f x begin 1,y neq f x 0,y f x end l y,f x y f x 2 l y,...
統計學習三要素的思考
machine learning 三要素組成乙個公式 方法 模型 策略 演算法 監督學習裡,模型就是待學習的條件概率分布或決策函式。其中,條件概率分布 p y x 表示在已知輸入資料的條件下,輸出為y的概率。將其表示為函式,就是y f x 二者均表示輸入與輸出隨機變數之間的對映關係。關於模型,需要理...