在以前的部落格(機器學習入門學習筆記:(2.1)線性回歸理論推導 )中推導了單元線性回歸和多元線性回歸的模型。
將線性回歸模型簡寫為:y=
ωtx+
b ;
對數線性回歸模型可以寫成:ln
(y)=
ωt+b
;本質上仍然是線性回歸,只不過擬合的是非線性的ln函式了。
更一般地,考慮單調可微函式g(
.),令y=
g−1(
ωtx+
b);這個模型就叫做廣義線性回歸模型。(直接抄書的,實在不擅長背定義qaq)
對於二分類任務,輸出標記為y∈
,而線性回歸的**結果h(
x)=ω
tx+b
,很明顯是乙個連續值,所以需要將其轉換為0/
1 值。
所以要用到單位階越函式: y=
⎧⎩⎨0
,h(x
)<0;
0.5,h(
x)=0
;1,h
(x)>0;
即,若**值大於0,就判為正例;若**值小於0,就判為負例;臨界值處,任意判別。
我們都知道,階躍函式不可導,不連續,而g−
1(.)
必須是乙個可微的函式,所以階躍函式不能用作g−
1(.)
,還需要找乙個連續函式代替階躍函式。
我們常用對數機率函式(logistic function)來進行替代:y=
11+e
−z畫出圖形會看到它形似s,所以也是一種sigmoid函式。
把對數機率函式作為g−
1(.)
,代入到廣義線性回歸的公式中:y=
11+e
−(ωt
x+b)
做一些化簡,可以得到:ln(
y1−y
)=ωt
x+b
其中,y是正例的可能性,(1-y)是負例的可能性。
那麼,這個ln(
y1−y
) 其實就是「對數機率」,等式右邊的是什麼不用說了吧。可以看出,對數機率回歸實質上就是使用線性回歸模型(ωt
x+b )來逼近這個對數機率(ln(
y1−y
) )。
好的,那麼問題來了。如何求解出這個模型中的未知引數ω 和
b 呢?
只考慮二分類的情況下,將y換成後驗概率p(
y=1|
x)來表示,同理1-y可以換成p(
y=0|
x)。 則有:
。 同時也要給x矩陣補上一列1,令x′
= 。因為要對應引數b,補上1,保證結果不變。
那麼,ωtx
+b=β
tx′ 。
由於是二分類,即只有y=
0 和y=
1 的情況,那麼可以將似然項重寫為y=
0 和y=
1 的情況相加:p(
yi|x
i;β)
=yi×
p(y=
1|x′
i;β)
+(1−
yi)×
p(y=
0|x′
i;β)
」西瓜書「上是這麼寫的,當然這樣也不難理解。其實為了後面推導方便和容易理解,我們可以換成對數機率的形式來表示,原理依然是一樣的,無非是加了個對數:ln[
p(yi
|xi;
β)]=
yi×ln
[p(y
=1|x
′i;β
)]+(
1−yi
)×ln[
p(y=
0|x′
i;β)
] 將上式代入到前面極大似然的公式中:l(
β)=∑
mi=1
ln(p(
yi|x
i;β)
) 聯立前面推出的後驗概率的結果:⎧⎩
⎨p(y
=1|x
)=eω
tx+b
1+eω
tx+b
p(y=
0|x)
=11+
eωtx
+b得到最後的結果:l(
β)=∑
i=1m
(yiβ
tx′i
−ln(1
+eβt
x′i)
) 由於是極大似然,我們需要求出其極大值,所以有: β∗
=arg
maxm
l(β)
求出使l(
β)最大的最優解等價於求出使−l
(β) 最小的解,所以有: β∗
=arg
maxm
l(β)
=arg
minm
l(β)
=∑i=
1m(−
yiβt
x′i+
ln(1+
eβtx
′i))
最後可以通過凸優化中的梯度下降法、牛頓法等方法來求出l(
β)函式的最優解β∗
。以上僅是個人學習筆記分享用,也留作我自己以後溫習。
(>.<)
機器學習 周志華 學習筆記(2 3)
1.查準率p 指查出來的有幾個對的 2.查全率r 指對的有幾個被查出來 3.特別的,對於二分類問題,將 的正誤與真實的正誤交叉構成 混淆矩陣 分為真正tp 假正fp 真反tn 假反fn 4.很明顯p r是互斥的,做p r曲線如下圖,且與 p r 的交點稱為平衡點 bep 平衡點對應的 p,r 值越高...
機器學習入門筆記
最近在學習機器學習。本文大概是我的筆記 總結 機器學習本質上是對已經了解一些內在規律的資料進行分析,得到一些資訊,從而在面對新資料的時候,可以進行 收集資料 分析資料 是否合法 是否能得到正確的演算法 訓練演算法 測試演算法 是否能以較大概率得到正確的結果 使用演算法 在已知資料集 每個資料可以看做...
機器學習方法篇 23 增強學習入門
別讓夢想的附屬品喧賓奪主。在小鬥去年五月份寫的 alphago技術剖析 揭開圍棋大腦的神秘面紗 這篇介紹alphago的文章中講到,alphago之所以能戰勝人類頂尖的圍棋手,主要是增強策略網路的功勞。而增強策略網路的核心技術,便是增強學習。那麼,增強學習到底是什麼?增強學習 reinforceme...