而在最大熵原理的指導下,我們知道了那條曲線應該是乙個什麼樣子的。
首先,回顧我們之前推導出的最大熵模型為:ex
p(∑i
=1nw
ifi(
x,y)
)∑ye
xp(∑
i=1n
wifi
(x,y
))
在二分類的邏輯回歸模型中,y的取值假定有兩種 y0
,y1 ,那麼對應到特徵函式 fi
(x,y
) 上,我們可以設定:f(
x,y)
={h(
x),y
=y10
,y=y
0 ,也就是說,我們定義特徵函式只有在y=
y1的時候抽取特徵。當y
=y1 時:p(
y1|x
)=ex
p(∑i
=1nw
ifi(
x,y1
))ex
p(∑i
=1nw
ifi(
x,y1
))+e
xp(∑
i=1n
wifi
(x,y
0))
p(y1|x)
=exp
(wh(
x))e
xp(w
h(x)
)+ex
p(w0
) p
(y1|
x)=e
xp(w
h(x)
)exp
(wh(
x))+
1 當
y=y0
時:p(
y0|x
)=ex
p(∑i
=1nw
ifi(
x,y0
))ex
p(∑i
=1nw
ifi(
x,y1
))+e
xp(∑
i=1n
wifi
(x,y
0))
p(y0|x)
=exp
(w0)
exp(
wh(x
))+e
xp(w
0)
p(y0
|x)=
1exp
(wh(
x))+
1 綜合起來:p(
y0|x
)=1−
p(y1
|x)
具體結合二分類的邏輯回歸模型來說,在lr中,條件概率由p(y|x)表示,x的取值範圍是所有實數,而y的取值範圍只有兩個,這裡為了數學上的計算方便一點,把這兩個定位1和0,也就是說在上面的式子中,令 y1
=1,y
0=0 ,此時lr的條件概率分布為:{p
(y=1
|x)=
exp(
h(x)
)1+e
xp(h
(x))
p(y=
0|x)
=11+
exp(
h(x)
) 我們既然知道了lr的條件概率分布,也就知道了對於乙個給定的x,可以求出被分類成1和0的概率值,通過將x分類到概率值比較大的那一類就可以完成對於x的分類過程。
一件事件的機率(odds)是指該事件發生的概率與不發生的概率的比值。也就是說,如果乙個事件發生的概率是p,那麼不發生的概率自然是1-p,那麼它的機率就是 p1
−p,如果將機率對數化:logit(p)=log(p/1-p)
在lr中,如果只關注y=1的概率時,輸出y=1的對數機率就是輸入x的線性函式:lo
gp(y
=1|x
)1−p
(y=1
|x)=
wx
根據上面的推導,可以設:{p
(y=1
|x)=
h(x)
p(y=
0|x)
=1−h
(x)
我們可以用極大似然估計來求解模型的引數
*之前在最大熵模型的章節中就證明過
似然函式為:∏i
=1n[
h(xi
)yi]
[1−h
(xi)
1−yi
] 對數化後為:∑i
=1n[
yilo
gh(x
i)+(
1−yi
)log
(1−h
(xi)
)]
→ ∑
i=1n
[yil
ogh(
xi)1
−h(x
i)+l
og(1
−h(x
i))]
→ ∑i=
1n[y
i(wx
i)+l
og(1
+exp
(wxi
))]
然後用梯度下降或者牛頓法來繼續求解。
邏輯回歸原理
最大似然估計 現在已經拿到了很多個樣本 你的資料集中所有因變數 這些樣本值已經實現,最大似然估計就是去找到那個 組 引數估計值,使得前面已經實現的樣本值發生概率最大。因為你手頭上的樣本已經實現了,其發生概率最大才符合邏輯。這時是求樣本所有觀測的聯合概率最大化,是個連乘積,只要取對數,就變成了線性加總...
邏輯回歸原理
看了很多遍邏輯回歸的原理,但是發現自己還是不能完整的講清楚它的原理,所以在這裡寫一篇部落格來理清楚自己的思路。水平有限,如有錯誤還請指正。邏輯回歸是利用回歸類似的方法來解決分類問題。假設有乙個二分類問題,輸出y sigmoid函式的影象 sigmoid函式中的z就是線性函式的z,因為g z 最後輸出...
邏輯回歸原理
目錄邏輯回歸 logistic regression 是分類方法。可以處理二元分類和多元分類。邏輯斯諦分布的密度函式 f x 和分布函式 f x 如圖。分布函式以點 left mu frac right 中心對稱。二元邏輯回歸模型是如下條件概率分布 p y 1 x frac tag p y 0 x ...