統計學習方法筆記二

2021-08-22 18:15:38 字數 2786 閱讀 3881

假設學習到的模型是:y=

f^(x

) y=f

^(x)

訓練誤差是模型關於訓練資料集的平均損失:re

mp(f

^)=1

n∑ni

=1l(

yi,f

^(xi

))r em

p(f^

)=1n

∑i=1

nl(y

i,f^

(xi)

)測試誤差是模型關於測試資料集的平均損失:et

ext=

1n′∑

n′i=

1l(y

i,f^

(xi)

) ete

xt=1

n′∑i

=1n′

l(yi

,f^(

xi))

(n為訓練樣本容量,n^』^為測試樣本容量)

測試誤差反映了學習方法對未知測試資料集的**能力,**誤差小的方法具有更好的**能力。

過擬合:對已知資料集擬合很好,對未知資料**很差。

模型選擇:當選擇的模型複雜度過大,會出現過擬合,故我們要選擇複雜度適當的最優模型。mi

nf∈ϝ

=1nl

(yi,

f(xi

))+λ

j(f)

m in

f∈ϝ=

1nl(

yi,f

(xi)

)+λj

(f

)在樣本資料充足的情況下,隨機將資料集切成三部分,分別為訓練集,驗證集,測試集。訓練集用於訓練模型;驗證集用於模型的選擇;測試集用於最終對學習方法的評估。

簡單交叉驗證:

隨機將資料集分成兩部分,一部分作為訓練集,另一部分作為測試集。用訓練集在各種條件下訓練模型,在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型。

s折交叉驗證

隨機將資料集切分成s個互不相交的大小相同的子集,利用s-個子集的資料訓練模型,利用餘下的子集測試模型,將這一過程對可能的s種選擇重複進行,最後選出s種評測中平均測試誤差最小的模型。

留一交叉驗證:

s折交叉驗證的特殊情形是s=n,稱為留一交叉驗證,在資料缺乏的情況下使用,n是給定資料集的容量。

若學到的模型是f^

f

^,那麼以下模型是對未知資料**的誤差即為泛化誤差。re

xp(f

)=ep

[l(y

,f(x

))]=

∫xyl

(y,f

(x))

p(x,

y)dx

dyr ex

p(f)

=ep[

l(y,

f(x)

)]=∫

xyl(

y,f(

x))p

(x,y

)dxd

y泛化誤差越小,學習方法越好,泛化誤差即期望風險。

泛化能力分析是通過研究泛化誤差的概率上界進行的,簡稱泛化誤差上界。泛化誤差上界是樣本容量的函式,當樣本容量增加時,泛化上界趨於0;且泛化誤差是假設空間容量的函式,假設空間容量越大,模型越難學。

例(二分分類問題):

已知:t=(x

,y)∼

p(x,

y)( x,

y)∼p

(x,y

);x∈

rnx ∈r

n,y∈

y ∈ϝ

ϝ

=損失函式是0-1損失,關於

f f

的期望風險和經驗風險分別是:r(

f)=e

[l(y

,f(x

))]' role="presentation">r(f

)=e[

l(y,

f(x)

)]r(

f)=e

[l(y

,f(x

))]

r^=1

n∑ni

=1l(

yi,f

(xi)

) r^=

1n∑i

=1nl

(yi,

f(xi

))

經驗風險最小化函式是:fn

=arg

minf

∈ϝr^

(f) fn=

argm

inf∈

ϝr^(

f)

fnf

n的泛化能力:r(

fn)=

e[l(

y,fn

(x))

] r(f

n)=e

[l(y

,fn(

x))]

定理:對二分類問題,對任意乙個函式f∈

ϝ f∈ϝ

,至少以概率1−

δ 1−δ

,以下不等式成立:r(

f)≤r

^(f)

+ε(d

,n,δ

) r(f

)≤r^

(f)+

ε(d,

n,δ)

ε(d,n,

δ)=1

2n(l

ogd+

log1

δ)−−

−−−−

−−−−

−−−√

ε (d

,n,δ

)=12

n(lo

gd+l

og1δ

)左邊為泛化誤差,右為泛化誤差上界。

統計學習方法筆記(二)

二 這部分講的是感知機,簡單來說就是二類分類的線性分類模型,是神經網路和支援向量機的基礎。首先給出感知機的定義 定義1 假設輸入空間 特徵空間 是x 輸出空間是y,y取值為 1或1,輸入x 表示例項的特徵向量,對應於輸入空間 特徵空間 的點 輸出y表示例項的類別,由輸入空間到輸出空間的如下函式就稱為...

統計學習方法筆記1 統計學習方法概論

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...

統計學習方法筆記

1.損失函式 期望,就是均值 極大似然估計 似然就是概率 可能性,所以也是極大可能性估計 對數損失是用於最大似然估計的。一組引數在一堆資料下的似然值,等於每一條資料的概率之積。而損失函式一般是每條資料的損失之和,為了把積變為和,就取了對數 再加個負號是為了讓 最大似然值和 最小損失對應起來 w 是w...