統計學習方法筆記(1)

2021-09-01 11:33:26 字數 3337 閱讀 5467

第一次閱讀李航的《統計學習方法概論》特此記錄一些重點知識以備複習。

基本概念

1、統計學習方法三要素:模型、策略和演算法。

2、假設空間:要學習的模型的集合稱為假設空間。

3、本書主要介紹監督學習方法,主要包括用於分類、標註與回歸問題的方法。在自然語言處理、資訊檢索、文字資料探勘等領域有廣泛的應用。

監督學習

1、統計學習包括監督學習、非監督學習、半監督學習及強化學習。

2、監督學習的任務是學習乙個模型,使模型能夠對任意給定輸入,產生好的**。

3、搞清楚幾個基本概念:輸入空間、輸出空間、輸入變數(多為列向量,表示多個輸入條件)、輸出變數。

4、輸入輸出均為連續變數:回歸問題。

輸入連續,輸出有限個離散變數:分類問題。

輸入輸出均為有限個離散變數:標註問題。

5、監督學習分為學習與**兩個部分。

注:arg max表示符合條件的函式值中的最大值。

損失函式和風險函式

1、損失函式用於度量模型一次**的好壞。風險函式度量平均意義下模型**的好壞。

2、常用的損失函式

(1)0-1損失函式

3x + 5y + z \\ 7x - 2y + 4z \\ -6x + 3y + 2z \end

⎩⎪⎨⎪⎧​

3x+5

y+z7

x−2y

+4z−

6x+3

y+2z

​(2)平方損失函式

l (y

,f(x

))=(

y−f(

x))2

l(y,f(x))=()^2

l(y,f(

x))=

(y−f

(x))

2 (3)絕對損失函式

l (y

,f(x

))=∣

y−f(

x)

∣l(y,f(x))=\left|\right|

l(y,f(

x))=

∣y−f

(x)∣

(4)對數損失函式(對數似然損失函式)

l (y

,p(y

∣x))

=−lo

gp(y

∣x

)l(y,p(y|x))=-logp(y|x)

l(y,p(

y∣x)

)=−l

ogp(

y∣x)

3、損失函式的期望為風險函式。(聯合概率分布積分得到)

4、經驗風險(訓練資料集的平均損失)

r em

p(f)

=1n∑

i=1n

l(yi

,f(x

i)

)r_(f)=\frac\sum_^nl(y_i,f(x_i))

remp​(

f)=n

1​i=

1∑n​

l(yi

​,f(

xi​)

)5、經驗風險最小化策略

經驗風險最小的模型被認為是最優模型。

6、結構風險最小化

為了防止過擬合而提出來的策略。增加了表示模型複雜度的正則化項。

r sr

m(f)

=1n∑

i=1n

l(yi

,f(x

i))+

λj(f

)r_(f)=\frac\sum_^nl(y_i,f(x_i))+\lambda(f)

rsrm​(

f)=n

1​i=

1∑n​

l(yi

​,f(

xi​)

)+λj

(f)其中,j(f)為模型複雜度,越複雜值越大。lambda為係數。結構風險最小化策略是選擇結構風險最小的模型。

過擬合與模型選擇

1、過擬合:一味地追求訓練資料的**能力,導致模型複雜度過高。

2、訓練誤差與模型誤差

訓練誤差將會逐漸減小並趨向0。測試誤差先下降在上公升。因此肯定存在測試誤差最小的模型。方法為正則化與交叉驗證。

正則化與交叉驗證

1、正則化就是結構風險最小化策略的實現。

2、交叉驗證

適用於資料不足的情況,僅僅將資料分為訓練集與測試集,並重複使用。通常有簡單交叉驗證、s折交叉驗證、留一交叉驗證。

泛化

1、泛化指的是模型對於未知資料的**能力。現在採用最多的辦法是通過測試誤差來評價模型的泛化能力。

2、泛化誤差存在上界。公式證明略。

生成模型與判別模型

1、生成模型具有明確的生成關係,給定輸入x產生輸出y。生成方法還原出聯合概率分布p(x,y)。學習收斂速度更快。即樣本增加時,學習到的模型能更快地收斂於真實模型。典型的生成模型有:樸素貝葉斯法和隱馬爾可夫模型。

2、判別模型由資料直接學習決策函式f(x)或者條件概率p(y|x)。相當於直接**,學習準確率更高。

精確率與召回率(precision and recall)

tp-原本:正類。**:正類。

fn-原本:正類。**:負類。

fp-原本:負類。**:正類。

tn-原本:負類。**:負類。

精確率定義:(**正類正確/**正類)

p =t

ptp+

fp

p=\frac

p=tp+f

ptp​

召回率定義:(**正類/原本正類)

r =t

ptp+

fn

r=\frac

r=tp+f

ntp​

調和均值:

2 f1

=1p+

1r

\frac =\frac+\frac

f1​2​=

p1​+

r1​f1=

2tp2

tp+f

p+fn

f_1=\frac

f1​=2t

p+fp

+fn2

tp​精確率,召回率都高,f1值也高。

回歸問題

1、回歸按照輸入變數的數量,分為一元回歸和多元回歸。按照輸入變數和輸出變數之間關係的型別,分為線性回歸和非線性回歸。

2、回歸學習最常用的損失函式為平方損失函式,通常使用最小二乘法求解。

統計學習方法筆記1 統計學習方法概論

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...

統計學習方法筆記(1)

統計學習的過程 確定包含所有可能模型的假設空間 確定各個模型學習的策略 利用不同的演算法求解各個模型 進行模型評估和選擇 對各個模型進行評估,最終選擇最優模型 利用最優的模型對資料進行 或分析。例子 用 房屋 的例子更好理解這乙個過程。真實房價 y 與房屋面積 x1 房間數量 x2 等特徵有關。現在...

統計學習方法 1 統計學習方法概論

統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...