從統計學的角度看線性回歸

線性回歸是機器學習中常用的一種監督學習方法。常被用於選擇重要特徵和構造基學習器。本文將用統計學中極大似然估計和貝葉斯統計的方法推導線性回歸及正則化。

極大似然估計的核心思想是找出一組引數值，使得在該引數值下，訓練樣本被觀察到的概率最大。

在以下推導中，

w 為回歸係數，w=

(w0,

w1,.

..,w

m−1)

t 。(t

n,xn

) 為第n個樣本。全體樣本(t

,x)=

(t1,

x1),

...,

(tn,

xn) ，n為樣本個數。假設t

n=wt

xn+ϵ

,ϵ∼n

(0,σ

2)，即tn

服從正太分布，均值為wt

xn，方差為σ2

。則所有訓練樣本

t 的概率分布函式p(

t|w,

σ2,x

)=∏n

=1nn

(tn|

wtxn

,σ2)

。我們的目的是找出最佳回歸係數w，使得p(

t|w,

σ2,x

) 最大。最常用的解法就是求梯度找極值點。但是直接求梯度會很複雜，可以先取對數使得連乘變連加再求梯度。這麼做的另乙個好處是正太分布函式中含有指數函式，求對數後剛好消掉。而且對數函式的單調性保證了變換前後有相同的最優解。 ln

p(t|

w,σ2

)=∑n

=1nl

nn(t

n|wt

xn,σ

2) =

∑n=1

nln(

12πσ

2−−−

−√e−

12σ2

(tn−

wtxn

)2)

=−12

ln(2

π)−l

nσ−1

2σ2(

t−xw

)t(t

−xw)

令 ed(w)

=12(

t−xw

)t(t

−xw)

最大化ln

p(t|

w,σ2

) 相當於最小化ed

(w) 。在機器學習中，ed

(w) 被稱為損失函式。最優解 w∗

=arg

minw

。求解: ∂e

d(w)

∂w=−

xt(t

−xw)

=0得： w=

(xtx

)−1x

tt檢驗w是否為最優解： ∂2

ed(w

)∂w2

=xtx

當xtx 為正定矩陣的時候，w=

(xtx

)−1x

tt為最優解。

有的時候為了防止過擬合，我們還會在損失函式中加入正則項（regularizer），比如l2範數ew

(w)=

12wt

w 。令 e

(w)=

ed(w

)+λe

w(w)

=12(

t−xw

)t(t

−xw)

+12λ

wtw

其中λ為正則化係數,

λ>

0 。

再次求解

w : ∂e

(w)∂

w=−x

t(t−

xw)+

λw=0

得： w=(

xtx+

λi)−

1xtt

檢驗w是否為最優解： ∂2

ed(w

)∂w2

=xtx

+λi

故當xtx

+λi 為正定矩陣(positive definite)時，

w 為最優解。從上式我們也可以看出，加入正則項能使結果更穩定，因為有時候xt

x是非正定的，但是加上λi

就變成正定矩陣了。

在貝葉斯統計中，有三種概率分布：先驗概率（prior）,似然概率（likelihood）和後驗概率（posterior）。類似之前極大似然估計中，我們假設似然概率: p(

tn|w

,σ2)

=n(t

n|wt

xn,σ

2) 即

tn服從正太分布，均值為wt

xn，方差為σ2

。故p(t

|w,σ

2)=n

(t|x

w,σ2

i)以下推導中我們假設σ2

已知，所有條件概率p(

t|w,

σ2) 都簡寫成p(

t|w)

。先驗概率： p(

w)=n

(w|m

0,s0

) 根據貝葉斯公式p(

w|t)

=p(t

|w)p

(w)p

(t) ，有： p(

w|t)

∝p(t

|w)p

(w)

∝e−1

2σ2(

t−xw

)t(t

−xw)

e−12

(w−m

0)ts

0−1(

(w−m

0))

∝e−1

2[wt

(1σ2

xtx+

s0−1

)w−2

(1σ2

ttx+

m0ts

0−1)

w]對比高斯分布的分布函式，我們可以發現p(

w|t)

=n(w

|μ,σ

) 其中： σ−

1=1σ

2xtx

+s0−

1 μ=

σ(1σ

2xtt

+s0−

1m0)

令wmap=a

rgmaxwp(

w|t)

，即wma

p 最大化後驗概率(maximum a posterior)。我們知道高斯分布的概率密度最大點為均值點，故wm

ap=μ

=σ(1

σ2xt

t+s0

−1m0

) 。當s

0 趨向於無窮大時，s0

−1趨於0，則wm

ap趨於(xt

x)−1

xtt ，也就是之前極大似然估計中得出的最優解。對s0

趨於無窮大的直觀理解是我們在得到資料前對w=

m0這個猜測非常不確定，所以讓它的方差無窮大。

另一方面，如果我們令s0

=σ2α

i,m0

=0，即w

的先驗分布是均值為零，方差為σ2

αi的高斯分布，則後驗分布的對數： ln

p(w|

t)∝l

np(t

|w)+

lnp(

w) ∝

−12σ

2(t−

xw)t

(t−x

w)−α

2σ2w

tw最大化ln

p(w|

t)就相當於最小化e(

w)=1

2(t−

xw)t

(t−x

w)+α

2wtw

，即新增了l2正則項的損失函式。由此我們發現貝葉斯線性回歸中的先驗分布起到了正則化的作用。直觀的理解，貝葉斯線性回歸中的先驗分布和一般線性回歸損失函式的正則項都代表了我們對樣本真實分布的一種預先認知。

從統計學的角度看線性回歸

從統計學角度來看深度學習（1）遞迴廣義線性模型

從統計學看NLP之概述（1）

統計學從對值的理解談起

從統計學的角度看線性回歸

從統計學角度來看深度學習（1） 遞迴廣義線性模型

從統計學看NLP之概述（1）

統計學 從對 值的理解談起

相關推薦

從統計學角度來看深度學習（1）遞迴廣義線性模型

統計學從對值的理解談起