定義
如果乙個系統能夠通過執行某個過程改進它的效能, 這就是學習
物件
資料(data), 從資料出發, 提取資料的特徵, 抽象出資料的模型, 發現資料中的知識, 最終回到對資料的分析與**中去.
前提
具有某種共同性質的資料, 其具有一定的統計規律性
分類
監督學習, 非監督學習, 半監督學習, 強化學習
基本概念
輸入空間: 輸入所有可能的取值集合
輸出空間: 輸出所有可能的取值集合
特徵空間: 每個具體的輸入是乙個例項, 通常由特徵向量表示. 所有特徵向量存在的空間
監督學習產生的最終模型可以是概率模型或非概率模型
概率模型由條件概率分布p(y|x)表示
非概率模型由決策函式y=f(x)表示
常用損失函式
0-1損失函式l(
y,f(
x))=
1(y≠
f(x)
),0(
y=f(
x)) l(y
,f(x
))=1
(y≠f
(x))
,0(y
=f(x
))
平方損失函式l(
y,f(
x))=
(y−f
(x))
2 l(y
,f(x
))=(
y−f(
x))2
絕對損失函式l(
y,f(
x))=
|y−f
(x)|l(
y,f(
x))=
|y−f
(x)|
對數損失函式l(
y,p(
y|x)
)=−l
ogp(
y|x)l(
y,p(
y|x)
)=−l
ogp(
y|x)
對數損失函式用於概率模型中給定乙個訓練資料集, 模型f(x)關於訓練資料集的平均損失稱為經驗損失, 記為re損失函式值越小, 模型就越好. 模型輸入輸出(x,y)都是隨機變數, 遵循聯合分布p(x,y)
損失函式的期望: re
xp(f
)=e[
l(y,
f(x)
)]=∫
(x,y
)l(y
,f(x
))p(
x,y)
dxdyre
xp(f
)=e[
l(y,
f(x)
)]=∫
(x,y
)l(y
,f(x
))p(
x,y)
dxdy
或者∑x=
1∑y=
1(l(
y,f(
x))∗
p(x,
y)) ∑x=
1∑y=
1(l(
y,f(
x))∗
p(x,
y)
)以上損失也稱為期望損失, 記為 r
exp rex
p
mpr em
p期望風險是模型關於聯合分布的期望損失, 經驗風險是模型關於訓練樣本集的平均損失.
當樣本容量n趨於無窮時, 經驗風險趨於期望風險.
監督學習的基本策略
經驗風險最小化erm
經驗風險最小的模型就是最優模型, 經驗風險最小化求最優模型就是求解最優化問題
當樣本容量小時, 容易產生過擬合現象
結構風險最小化srm
正則化. 在經驗風險上加上表示模型複雜度的正則化項. rs
rm(f
)=1n
∑i=1
nl(y
i,f(
xi))
+λj(
f)r sr
m(f)
=1n∑
i=1n
l(yi
,f(x
i))+
λj(f
)j(f)表示模型的複雜度, 模型f越複雜, j(f)就越大; f越簡單, j(f)就越小. 複雜度表示了對複雜模型的懲罰. λ≥
0 λ≥
0是係數, 用以權衡經驗風險和模型複雜度.
過擬合當模型的複雜度增大時, 訓練誤差會逐漸減小並趨於0; 而測試誤差會先減小, 達到最小值後又增大.
當選擇的模型複雜度過大時, 過擬合現象就會發生.
正則化正則化等價於結構風險最小化策略的實現, 在經驗風險上加乙個正則化項或罰項.
正則化項一般是模型複雜度的單調遞增函式
交叉驗證
簡單交叉驗證
隨機的將資料分為兩部分, 訓練集和測試集. 用訓練集在各種條件下訓練模型, 在測試集上評估各個模型的測試誤差s折交叉驗證
隨機的將資料集切分為s個互不相交的大小相同的子集, 其中的s-1個子集作為訓練集, 餘下的作為測試集; 將這一過程對可能的s種選擇重複進行.留一交叉驗證
s折的特殊情況, 取s=n(資料集的容量)
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
統計學習方法筆記1 統計學習方法概論
統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...
統計學習方法概論
這篇文章是對李航 統計學習方法 第一章的乙個回顧,主要是希望對統計學習基本概念 方法做乙個濃縮的總結,希望能對像我一樣的初學者有所幫助。假如有某些地方講的不對的,可以指明,以期促進。統計學習概念 關於計算機基於資料構建概率統計模型並運用模型進行資料 與分析的一門科學。它以計算機及網路為平台,以資料為...