輸入一組向量xx
=[x1
,x2,
...,
xd]
, 用線性模型**輸出變數y。 y
^=ww
txx(1)
其中ww 是權重, 是線性模型的引數。在這裡,我們已經將輸入向量擴增為增廣向量xx
=[x1
,x2,
...,
xd,1
] , 最後的1所對應的權重為截距。這種做法方便後續處理。我們有一批樣本(x
x1,y
1),(
xx2,
y2),
...,
(xxn
,yn)
。n個樣本可以疊加起來, 如下所示: x
x=⎡⎣
⎢⎢⎢⎢
xxt1
xxt2
...x
xt2⎤
⎦⎥⎥⎥
⎥=⎡⎣
⎢⎢⎢⎢
x1,1
x2,1
...x
n,1x
1,2x
2,2.
..xn
,2..
....
....
..x1
,dx2
,d..
.xn,
d⎤⎦⎥
⎥⎥⎥y
y=⎡⎣
⎢⎢⎢y
1y2.
..yn
⎤⎦⎥⎥
⎥(2)
最小二乘法可以用來估計線性模型的引數。最小二乘法選擇引數ww
, 以最小化**值y^
和真實值
y 之間差值的平方。 或
者矩陣形
式:mi
nmin
rss(
ww)=
∑i=1
n(yi
−wwt
xxi)
2rss
(ww)
=(yy
−xxw
w)t(
yy−x
xww)
(3)
rss是ww
的凸函式,因此存在最小值,並且最小值在導數等於0的時候取得。 ∂
rss∂
ww=x
xt(y
y−xx
ww)=
0=>ww
=(xx
txx)
−1xx
tyy(4)
1. 投影和最小二乘法
假設沒有誤差,則輸入變數xx
和**變數
y 滿足線性關係: y=
wwtx
x ,得yy
=xxw
w 。 這個等式表示向量yy
屬於矩陣xx
的列空間。
但是由於誤差, 線性關係不成立, 即向量yy
不屬於矩陣xx
的列空間。為了得到ww
,我們把向量yy
投影到矩陣xx
的列空間,得到yy
^ , 然後解yy
^=xx
ww。
=>
=>yy
^=xx
(xxt
xx)−
1xxt
yyxx
ww=x
x(xx
txx)
−1xx
tyyw
w=(x
xtxx
)−1x
xtyy
(5)
等等,我們好像之前見過這樣的公式(??)。 這和最小二乘法的結論一模一樣。 投影方法和最小二乘法從不同的想法出發, 最終得到了一致的結論。
2. 極大似然估計和最小二乘法
在概率論的語言下,偏離線性關係的誤差,滿足期望為0的高斯分布, 如下所示。 y
iϵi=
∼wwt
xxi+
ϵin(
0,σ2
)(6)
我們用極大似然方法估計線性模型的引數ww
, 似然值: l
(ww)
===∑
i=1n
logf
(ϵi)
f是n(
0,σϵ
)的概率
密度函式
∑i=1
nlog
12πσ
2−−−
−√ex
p(−ϵ
2i2σ
2)∑i
=1n−
(yi−
wwtx
xi)2
2σ2−
log2
πσ2−
−−−√
(7)
為了最大化似然值l(
ww) , 需要最小化∑n
i=1(
yi−w
wtxx
i)2 。 這也是最小二乘法所追求的。 因此我們可以說, 誤差服從高斯分布的情況下, 最小二乘法等價於極大似然估計。
最大似然與最小二乘
看似最小二乘估計與最大似然估計在推導得到的結果很相似,但是其前提條件必須引起大家的注意!對於最小二乘估計,最合理的引數估計量應該使得模型能最好地擬合樣本資料,也就是估計值和觀測值之差的平方和最小,其推導過程如下所示。其中q表示誤差,yi表示估計值,yi 表示觀測值。對於最大似然法,最合理的引數估計量...
最小二乘估計與最大似然估計
看似最小二乘估計與最大似然估計在推導得到的結果很相似,但是其前提條件必須引起大家的注意!對於最小二乘估計,最合理的引數估計量應該使得模型能最好地擬合樣本資料,也就是估計值和觀測值之差的平方和最小,其推導過程如下所示。其中q表示誤差,yi表示估計值,yi 表示觀測值。對於最大似然法,最合理的引數估計量...
最大似然估計與最小二乘的理解
最大似然估計,就是利用已知的樣本結果,反推最有可能 最大概率 導致這樣結果的引數值。例如 乙個麻袋裡有白球與黑球,但是我不知道它們之間的比例,那我就有放回的抽取10次,結果我發現我抽到了8次黑球2次白球,我要求最有可能的黑白球之間的比例時,就採取最大似然估計法 我假設我抽到黑球的概率為p,那得出8次...