統計學習方法 筆記 第一章 泛化能力

2021-10-02 02:31:31 字數 2918 閱讀 5703

指模型對未知資料的**能力。從理論上對泛化能力進行分析。

如果學到的模型是f

^\hat

f^​ ,那麼用這個模型對未知資料測得的誤差即為泛化誤差(generalization error):

r ex

p=ep

[l(y

,f^(

x))]

=∫x⋅

yl(y

,f^(

x))p

(x,y

)dxd

yr_= e_[l(y,\hat(x))]=\int_l(y,\hat\left ( x \right ))p(x,y)dxdy

rexp​=

ep​[

l(y,

f^​(

x))]

=∫x⋅

y​l(

y,f^

​(x)

)p(x

,y)d

xdy泛化誤差也就是所學習到模型的期望風險。

泛化誤差上界(generalization error bound)

定理(泛化誤差上界):對二分類問題,當假設空間是有限個函式的集合f=f

1,f2

,...

,fdf=

f=f1​,

f2​,

...,

fd​時,對任意乙個函式fϵf

f\epsilon f

fϵf,至少依概率1−σ

,0

<

σ<

11-\sigma,0<\sigma<1

1−σ,

0<

σ<

1,以下不等式成立:

r (f

)⩽r(

f)^+

ε(d,

n,δ)

r(f)\leqslant \hat+\varepsilon (d,n,\delta )

r(f)⩽r

(f)^

​+ε(

d,n,

δ)其中,ε(d

,n,δ

)=12

n(lo

gd+l

og1δ

)\varepsilon (d,n,\delta )=\sqrt(logd + log\frac)}

ε(d,n,

δ)=2

n1​(

logd

+log

δ1​)

​右邊第一項是訓練誤差,訓練誤差越小,泛化誤差也越小。第二項是n的單調遞減函式,當n趨於無窮時趨於零。同時也是log

d\sqrt

logd

​階的函式,假設空間包含的函式越多,其值越大。

生成模型與判別模型

模型的一般形式決策函式:y=f

(x

)y=f(x)

y=f(x)

或者條件概率分布:p(y

∣x

)p(y|x)

p(y∣x)(x

,y

)p(x,y)

p(x,y)

,然後求出概率分布p(y

∣x

)p(y|x)

p(y∣x)

作為**的模型,即生成模型:

p (y

∣x)=

p(x,

y)p(

x)

p(y|x)=\frac

p(y∣x)

=p(x

)p(x

,y)​

典型的生成模型有:樸素貝葉斯法和隱馬爾可夫模型。

生成方法的特點:1、可以還原出聯合概率分布。2、收斂速度更快,即樣本容量增加時,更快的收斂於真實模型。3.存在隱變數時,仍可以用生成學習方法,判別方法不能用。

判別方法:由資料學習條件概率p(y

∣x

)p(y|x)

p(y∣x)

或決策函式f(x

)f(x)

f(x)

。判別方法關心的是給定輸入x,應該**什麼樣的輸出y。

典型的判別模型有:k鄰近法、感知機、決策樹、邏輯斯諦回歸模型、最大熵模型、支援向量機、提公升方法和條件隨機場等。

特點:1、直接面對**,學習的準確率會更高。2、因為直接學習條件概率或決策函式,可以對資料進行各種程度上的抽象、定義特徵並使用特徵,可以簡化學習問題。

監督學習的應用

三個方面:分類問題、標註問題和回歸問題。

分類問題

輸出變數y取有限離散值時,**問題便成為了分類問題。輸入x可以是連續的也可以是離散的。

評價分類器的一般指標是準確率(accuracy)。對於二分類問題常用的評價指標是精確率(precition)與召回率(recall)。

精確率:

p =t

ptp+

fp

p=\frac

p=tp+f

ptp​

召回率:

r =t

ptp+

fn

r=\frac

r=tp+f

ntp​

f1值:精確率和召回率的調和均值

2 f1

=1p+

1r

\frac=\frac+\frac

f1​2​=

p1​+

r1​

標註問題

標註問題的輸入是乙個觀測序列,輸出是乙個標記序列或狀態序列。標註問題的目的只在於學習乙個模型,使它能夠對觀測序列給出標記序列作為**。自然語言處理的策行標註是乙個典型的標註問題。

評價指標和分類問題一樣。

標註問題常用的方法:隱馬爾可夫模型,條件隨機場。

回歸問題

回歸用於**輸入變數和輸出變數之間的關係。學習對映函式。

按輸入變數分:一元回歸、多元回歸。按模型型別:線性回歸、非線性回歸。

常用損失函式是平方損失函式,這樣,回歸問題可以由最小二乘法求解。

統計學習方法筆記 第一章統計學習方法概論

統計學習方法第一章筆記 赫爾伯特 西蒙曾經對學習下定義 如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。現在人們提到的機器學習就是統計機器學習。統計學習包括監督學習 supervised learning 非監督學習 unsupervisedlearning 半監督學習 semi supe...

統計學習方法 第一章

1.統計學習的特點 2.統計學習的物件 對資料的基本假設 同類資料具有一定的統計規律性 3.統計學習的目的 4.統計學習方法 1.基本概念 x x 1,x 2,x i x n t x i x i 1 x i 2 x in t t x 1 y 1 x 2 y 2 x n y n 2.聯合概率分布 3....

統計學習方法第一章

1.numpy.poly1d 1,2,3 import numpy as np np.poly1d 1 2,3 poly1d 1 2,3 r np.poly1d 1 2,3 print r 1 62.from scipy.optimize import leastsq 表示scipy.optimiz...