統計學習方法概論

本文是學習李航寫的《統計學習方法》一書第一章「統計學習方法概論」所做的乙個筆記，主要就是對第一章的總結。

1. 統計學習：

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行**與分析的一門學科，統計學習也稱統計機器學習。由此可以看出統計學習的研究物件是資料，目的是對資料進行**與分析。同時，統計學習關於資料的基本假設是同類資料具有一定的統計規律性，這是統計學習的前提。

2. 監督學習：

統計學習包括監督學習、非監督學習、半監督學習及強化學習。其中監督學習利用訓練資料集學習乙個模型，再用模型對測試樣本集進行**，分為學習和**兩個過程，可用如下的圖來描述：

上圖中，t=

表示訓練資料集，其中(x

i,yi

),i=

1,2,

...,

n ，稱為樣本或樣本點，xi

是輸入，yi

是輸出。學習系統利用給定的訓練資料集，通過學習得到乙個模型，表示為條件概率分布p^

(y|x

) 或決策函式y=

f^(x

) ，描述輸入與輸出隨機變數之間的對映關係。在**過程中，**系統對於給定的測試樣本集中的輸入xn

+1，由模型yn

+1=a

rgma

xyn+

1p^(

yn+1

|xn+

1)或yn

+1=f

^(xn

+1) 給出相應的輸出yn

+1。

3. 統計學習方法的三要素：模型、策略、演算法

(1) 模型：所要學習的條件概率分布或決策函式。假設空間

f 包含所有可能的條件概率分布或決策函式：f=

或f=(2) 策略：按照什麼樣的準則學習或選擇最優的模型。先介紹損失函式和期望風險、經驗風險：

①損失函式l(

y,f(

x)) ：輸入為

x ，由

f輸出的**值為f(

x)，真實值為

y ，損失函式是f(

x)和y

的非負實值函式。常用的損失函式有以下幾種：

(i) 0-1損失函式：l(

y,f(

x))=

{1,y

≠f(x

)0,y

=f(x

)(ii) 平方損失函式：l(

y,f(

x))=

(y−f

(x))

(iii) 絕對損失函式：l(

y,f(

x))=

|y−f

(x)|

(iv) 對數損失函式：l(

y,p(

y|x)

)=−logp(

y|x)

②期望風險（期望損失）：損失函式的期望，即：re

xp(f

)=ep

l(y,

f(x)

)

學習的目標就是選擇期望風險最小的模型，但由於模型的輸入、輸出(x

,y) 的聯合分布p(

x,y)

是未知的，re

xp(f

) 不能直接計算。

經驗風險（經驗損失）：模型f(

x)關於訓練資料集的平均損失，即：re

mp(f

)=1n

∑i=1

nl(y

i,f(

xi))

有監督學習的兩個基本策略為經驗風險最小化和結構風險最小化。

經驗風險最小化即為：mi

nf∈f

1n∑i

=1nl

(yi,

f(xi

))f 是假設空間。

結構風險最小化是為了防止過擬合而提出的策略，即為正則化。結構風險在經驗風險上加上表示模型複雜度的正則化項和懲罰項，定義是：rs

rm(f

)=1n

∑i=1

nl(y

i,f(

xi))

+λj(

f)其中j

(f) 為模型的複雜度，λ≥

0 是係數，用以權衡經驗風險和模型複雜度。結構風險最小化即為：mi

nf∈f

1n∑i

=1nl

(yi,

f(xi

))+λ

j(f)

(3) 演算法：統計學習問題歸結為最優化問題，演算法成為求解最優化問題的演算法。

4. 模型評估與模型選擇：

(1) 訓練誤差和測試誤差：

訓練誤差是模型y=

f^(x

) 關於訓練資料集的平均損失。測試誤差是模型關於測試資料集的平均損失。測試誤差反映了學習方法對未知測試資料集的**能力，測試誤差小的方法具有更好的**能力，是更有效的方法。

(2) 過擬合：

過擬合指學習時選擇的模型所包含的引數過多，以致於出現這一模型對已知資料**的很好但對未知資料**的很差的現象。訓練誤差和測試誤差與模型複雜度之間的關係如下圖所示：

我們可以看出，隨著模型複雜度的增大，訓練誤差會逐漸減小並趨向於0；而測試誤差會先減小，達到最小值後又增大。當選擇的模型複雜度過大時就會發生過擬合現象

5. 模型選擇方法：正則化與交叉驗證

（1）正則化：結構風險最小化策略的實現。正則化的作用是選擇經驗風險與模型複雜度同時較小的模型。

（2）交叉驗證：

若樣本資料充足，隨機地將資料分成三部分：訓練模型（用來訓練模型）、驗證集（用於模型的選擇）和測試集（用於最終對學習方法的評估）。

若樣本資料不充足，則重複地使用資料即交叉驗證。

6. 泛化能力：

泛化能力是指學習方法學習到的模型對未知資料的**能力。泛化誤差反映了學習方法的泛化能力，事實上泛化誤差就是所學習到的模型的期望風險。如果一種方法學習的模型比另一種方法學習的模型具有更小的泛化誤差，那麼這種方法就更有效。

7. 生成模型與判別模型：

（1）生成方法：由資料學習聯合聯合概率分布p(

x,y)

，然後求出條件概率分布p(

y|x)

作為**的模型。

（2）判別方法：由資料直接學習決策函式f(

x)或條件概率分布p(

y|x)

作為**的模型。

8. 分類問題：

分類問題包括學習和分類兩個過程。評價分類器效能的指標一般是分類準確率，即對給定的測試資料集，分類器正確分類的樣本數與總樣本數之比。

9. 標註問題：

標註問題的輸入是乙個觀測序列，輸出是乙個標記序列或狀態序列，分為學習和標註兩個問題。標註常用的統計學習方法有隱馬爾可夫模型、條件隨機場，應用於資訊抽取和自然語言處理（如其中的詞性標註）。

10. 回歸問題：

回歸問題等價於函式擬合，選擇一條函式曲線使其很好地擬合已知資料且很好地**未知資料。回歸模型是表示從輸入變數到輸出變數之間對映的函式。回歸分為學習和**兩個過程。

統計學習方法概論

統計學習方法 1 統計學習方法概論

統計學習方法概論

《統計學習方法》概論

統計學習方法概論

統計學習方法 1 統計學習方法概論

統計學習方法概論

《統計學習方法》 概論

相關推薦

《統計學習方法》概論