《機器學習實戰》 邏輯斯蒂回歸《一》

2021-08-11 16:53:56 字數 3076 閱讀 8430

回歸我們知道有線性回歸,線性回歸模型能夠無限的逼近我們的結果。以(x

i,yi

) 為例,通過線性回歸 f(

x)=w

tx+b

表示式,就可以得到我們對yi

的估計值。

如何從線性回歸轉換到分類呢?由於線性回歸得到的是連續值,z=

wtx+

b ,

z 的範圍[−

∞,∞]

,是這樣的乙個連續值無法直接轉換為類別。那怎麼辦?最簡單粗暴的方法,在二分類中,我們設定乙個閾值0,當z的值大於0我們就把他歸類為1,小於0歸類為0,z=0時就歸類為0,那不就是得到如下表示式了嗎? p=

⎧⎩⎨⎪

⎪0z<

00.5z=

01z>0

如果我能畫個圖就好了,你看這個表示式像什麼,是不是有點像符號函式(單位階躍函式)。符號函式有乙個特點,那就是啥?不可導。不可導會導致什麼後果。比如說,預先設定w=

w1,w

2,..

.wn 的初始值都為

1 ,給定乙個樣例(x

i,yi

),當然此時的

x 為乙個向量。所以通過z=

wt∗x

+b得到z

值,然後根據符號函式得到p,發現**的類別和我們的yi

不一致,我們是不是要回去更新

w 值,怎麼更新,用梯度啊,求導啊。可是不可導啊,那可咋整。所以我們不能用線性回歸去做分類,因此我們需要找乙個函式來把剛才計算的

z轉換一下,於是對數機率函式就出現了。y=

11+e

−z它就可以把剛才的線性函式轉換為非線性的,而且是處處可導的。範圍在0-1。將剛才的線性函式帶入對數機率函式中得到y=

11+e

−(wt

∗x+b

) 。這個函式就把[−

∞,∞]

對映到了[0

,1] 實際上我們的y值代表的就是類別為1的概率,那麼1−

y 就是類別為0的概率。好吧,那我們就以概率的形式來把他們表示出來:p(

y=1|

w,b,

x)=1

1+e−

(wt∗

x+b)

p(y=1|w

,b,x

)=hw

(x)

p(y=

0|w,

b,x)

=e−(

wt∗x

+b)1

+e−(

wt∗x

+b)

p(y=

0|w,

x,b)

=1−h

w(x)

我們可以把第二和第四個公式合併成乙個,j(

hw(x

),y)

=hw(

x)y(

1−hw

(x))

(1−y

) 如果y

=1 ,1

−y=0

就剩第一項了,我們就得到了類別為1的概率。如果y=

0 ,就只剩第二項了,也就是類別為0的概率。將其取對數之後,得到j(

hw(x

),y)

=yln

hw(x

)+(1

−y)l

n(1−

hw(x

))這樣給定乙個樣本,我們就可以得出該樣本屬於乙個類別的概率,而這個概率越大越好,也就是我們希望上面的代價函式能夠取到最大值。

當然上面是這對乙個樣本的代價函式,我們要通過多個樣本來估計引數w

j(w)

=∑i=

1n[y

ilnh

w(xi

)+(1

)+(1

−yi)

ln(1

−hw(

xi))

]n為樣本個數,我們的目的就是求一組

w ,它能讓上面這個代價函式取到最大值那就得用梯度上公升演算法,夷,一般不都是取最小值嗎?我們在j(

w)前面加乙個負號就是取最小值了,就可以用梯度下降演算法了。本質上是一樣的,只是乙個負號的問題。

梯度下降演算法的目的就是不斷的更新w的值,使−j

(w) 取到最小。梯度下降演算法的表示式就是:wi

=wi−

∂j(w

i)∂w

i 所以我們需要對j(

w)求導數,求導前,我們先捋一捋:hw

=g(w

t∗x)

=11+

e−(w

t∗x)

這就用到鏈式求導法則了: ∂j

(w)∂

wi=∂

j(w)

∂g(w

t∗x)

∗∂g(

wt∗x

)∂wt

∗x∗∂

wt∗x

wi那這三項需要我們乙個乙個的來求

第一項的求導結果為:∂j

(w)∂

g(wt

∗x)=

y∗1g

(wt∗

x)+(

y−1)

11−g

(wt∗

x)第二項的求導結果為: ∂g

(wt∗

x)wt

∗x=e

−(wt

∗x)(

1+e−

(wt∗

x))=

1(1+

e−(w

t∗x)

)∗(1

−11+

e−(w

t∗x)

)=g(

wt∗x

)∗(1

−g(w

t∗x)

) 第三項的求導結果為: ∂w

t∗x∂

wi=∂

j(w1

x1+w

2x2+

..+w

nxn)

∂wi=

xi所以,三項求導都完成了,我們可以得到最終的求導結果為: ∂j

(w)w

i=wi

−α∗x

i∗[y

i−g(

wt∗x

)]ok,按照這個公式更新引數我們就可以完成得到最終的

w 了。

終於寫完了,累死我了。

邏輯斯蒂回歸 機器學習ML

參考 1.統計學習方法 李航 2.邏輯斯蒂回歸是乙個非常經典的二項分類模型,也可以擴充套件為多項分類模型。其在應用於分類時的過程一般如下,對於給定的資料集,首先根據訓練樣本點學習到引數w,b 再對 點分別計算兩類的條件概率,將 點判為概率值較大的一類。1 線性模型 邏輯斯蒂回歸屬於對數線性模型,那什...

邏輯斯蒂回歸

邏輯斯蒂回歸首先研究的是分類問題,所以我們這裡引入的激勵函式是sigmoid函式,所以邏輯斯蒂回歸也叫sigmoid回歸。當然也叫對數機率回歸。邏輯斯蒂回歸是直接對資料的分類的可能性進行建模,而不是假設資料的分布,這就避免了假設資料分布時不均勻所帶來的問題,所以邏輯斯蒂回歸不但可以 類別,還可以得出...

機器學習演算法詳解 邏輯斯蒂回歸模型

邏輯斯蒂回歸模型是一種分類模型,其目的解決分類問題而非回歸問題。logistic回歸是乙個判別模型,直接學習後驗概率分布,其學習演算法可以理解為極大似然估計法。模型分類演算法通過定義乙個分離超平面來分割不同類別的資料,用sigmoid函式作為後驗概率分布函式來對輸入資料進行分類。模型的學習演算法通過...