回歸我們知道有線性回歸,線性回歸模型能夠無限的逼近我們的結果。以(x
i,yi
) 為例,通過線性回歸 f(
x)=w
tx+b
表示式,就可以得到我們對yi
的估計值。
如何從線性回歸轉換到分類呢?由於線性回歸得到的是連續值,z=
wtx+
b ,
z 的範圍[−
∞,∞]
,是這樣的乙個連續值無法直接轉換為類別。那怎麼辦?最簡單粗暴的方法,在二分類中,我們設定乙個閾值0,當z的值大於0我們就把他歸類為1,小於0歸類為0,z=0時就歸類為0,那不就是得到如下表示式了嗎? p=
⎧⎩⎨⎪
⎪0z<
00.5z=
01z>0
如果我能畫個圖就好了,你看這個表示式像什麼,是不是有點像符號函式(單位階躍函式)。符號函式有乙個特點,那就是啥?不可導。不可導會導致什麼後果。比如說,預先設定w=
w1,w
2,..
.wn 的初始值都為
1 ,給定乙個樣例(x
i,yi
),當然此時的
x 為乙個向量。所以通過z=
wt∗x
+b得到z
值,然後根據符號函式得到p,發現**的類別和我們的yi
不一致,我們是不是要回去更新
w 值,怎麼更新,用梯度啊,求導啊。可是不可導啊,那可咋整。所以我們不能用線性回歸去做分類,因此我們需要找乙個函式來把剛才計算的
z轉換一下,於是對數機率函式就出現了。y=
11+e
−z它就可以把剛才的線性函式轉換為非線性的,而且是處處可導的。範圍在0-1。將剛才的線性函式帶入對數機率函式中得到y=
11+e
−(wt
∗x+b
) 。這個函式就把[−
∞,∞]
對映到了[0
,1] 實際上我們的y值代表的就是類別為1的概率,那麼1−
y 就是類別為0的概率。好吧,那我們就以概率的形式來把他們表示出來:p(
y=1|
w,b,
x)=1
1+e−
(wt∗
x+b)
p(y=1|w
,b,x
)=hw
(x)
p(y=
0|w,
b,x)
=e−(
wt∗x
+b)1
+e−(
wt∗x
+b)
p(y=
0|w,
x,b)
=1−h
w(x)
我們可以把第二和第四個公式合併成乙個,j(
hw(x
),y)
=hw(
x)y(
1−hw
(x))
(1−y
) 如果y
=1 ,1
−y=0
就剩第一項了,我們就得到了類別為1的概率。如果y=
0 ,就只剩第二項了,也就是類別為0的概率。將其取對數之後,得到j(
hw(x
),y)
=yln
hw(x
)+(1
−y)l
n(1−
hw(x
))這樣給定乙個樣本,我們就可以得出該樣本屬於乙個類別的概率,而這個概率越大越好,也就是我們希望上面的代價函式能夠取到最大值。
當然上面是這對乙個樣本的代價函式,我們要通過多個樣本來估計引數w
j(w)
=∑i=
1n[y
ilnh
w(xi
)+(1
)+(1
−yi)
ln(1
−hw(
xi))
]n為樣本個數,我們的目的就是求一組
w ,它能讓上面這個代價函式取到最大值那就得用梯度上公升演算法,夷,一般不都是取最小值嗎?我們在j(
w)前面加乙個負號就是取最小值了,就可以用梯度下降演算法了。本質上是一樣的,只是乙個負號的問題。
梯度下降演算法的目的就是不斷的更新w的值,使−j
(w) 取到最小。梯度下降演算法的表示式就是:wi
=wi−
∂j(w
i)∂w
i 所以我們需要對j(
w)求導數,求導前,我們先捋一捋:hw
=g(w
t∗x)
=11+
e−(w
t∗x)
這就用到鏈式求導法則了: ∂j
(w)∂
wi=∂
j(w)
∂g(w
t∗x)
∗∂g(
wt∗x
)∂wt
∗x∗∂
wt∗x
wi那這三項需要我們乙個乙個的來求
第一項的求導結果為:∂j
(w)∂
g(wt
∗x)=
y∗1g
(wt∗
x)+(
y−1)
11−g
(wt∗
x)第二項的求導結果為: ∂g
(wt∗
x)wt
∗x=e
−(wt
∗x)(
1+e−
(wt∗
x))=
1(1+
e−(w
t∗x)
)∗(1
−11+
e−(w
t∗x)
)=g(
wt∗x
)∗(1
−g(w
t∗x)
) 第三項的求導結果為: ∂w
t∗x∂
wi=∂
j(w1
x1+w
2x2+
..+w
nxn)
∂wi=
xi所以,三項求導都完成了,我們可以得到最終的求導結果為: ∂j
(w)w
i=wi
−α∗x
i∗[y
i−g(
wt∗x
)]ok,按照這個公式更新引數我們就可以完成得到最終的
w 了。
終於寫完了,累死我了。
邏輯斯蒂回歸 機器學習ML
參考 1.統計學習方法 李航 2.邏輯斯蒂回歸是乙個非常經典的二項分類模型,也可以擴充套件為多項分類模型。其在應用於分類時的過程一般如下,對於給定的資料集,首先根據訓練樣本點學習到引數w,b 再對 點分別計算兩類的條件概率,將 點判為概率值較大的一類。1 線性模型 邏輯斯蒂回歸屬於對數線性模型,那什...
邏輯斯蒂回歸
邏輯斯蒂回歸首先研究的是分類問題,所以我們這裡引入的激勵函式是sigmoid函式,所以邏輯斯蒂回歸也叫sigmoid回歸。當然也叫對數機率回歸。邏輯斯蒂回歸是直接對資料的分類的可能性進行建模,而不是假設資料的分布,這就避免了假設資料分布時不均勻所帶來的問題,所以邏輯斯蒂回歸不但可以 類別,還可以得出...
機器學習演算法詳解 邏輯斯蒂回歸模型
邏輯斯蒂回歸模型是一種分類模型,其目的解決分類問題而非回歸問題。logistic回歸是乙個判別模型,直接學習後驗概率分布,其學習演算法可以理解為極大似然估計法。模型分類演算法通過定義乙個分離超平面來分割不同類別的資料,用sigmoid函式作為後驗概率分布函式來對輸入資料進行分類。模型的學習演算法通過...