邏輯回歸模型的兩種定義與引數估計思路

2021-07-24 11:27:56 字數 3360 閱讀 7329

邏輯斯諦回歸(logistic regression)是統計學習中的經典分類方法,屬於判別模型。

#1. 邏輯斯諦回歸模型定義

在 andrew ng 的 machine learning 課程和李航的統計學習方法中,都有對邏輯斯諦回歸模型的介紹,然而二者卻對模型有著不同的定義。

##1.1 決策函式

andrew ng 課程中,對二項邏輯回歸模型的決策函式如下:

h θ(

x)=g

(θtx

)h_\theta(x)=g(\theta^tx)

hθ​(x)

=g(θ

tx)g(z

)g(z)

g(z)

為sigmoid函式:

y =g

(z)=

11+e

−z

y=g(z)= \frac }

y=g(z)

=1+e

−z1​

.其中 θ

\theta

θ 為引數. 當 z≥0

z \geq 0

z≥0 時,0.5≤y

<

10.5 \leq y < 1

0.5≤

y<

1; 當 z

<

0z< 0

z<

0 時,0

<

y<

0.50 < y < 0.5

0<

y<0.

5.h θ(

x)

h_\theta(x)

hθ​(x)

的取值代表 y=1

y=1y=

1 的可能性的大小,若 h

hh 大於0.5,那麼就取1,如果小於0.5就取0.

##1.2 條件概率分布

統計學習方法中,二項邏輯回歸模型是如下函式定義的條件概率分布:

katex parse error: no such environment: align* at position 7: \begin̲ p(y=1|x)=&\fra…

這裡, x∈r

nx\in \mathbb^n

x∈rn

是輸入, y

∈y\in \

y∈是輸出,w∈r

nw\in \mathbb^n

w∈rn

是引數, 稱為權值向量, b

bb 稱為偏置, w⋅x

w\cdot x

w⋅x 為 w

ww 和 x

xx 的內積. 比較兩個條件概率值的大小,將例項 x

xx 分到概率值較大的那一類.

#2. 模型引數估計

由於定義的模型存在差異,因此二者的引數估計的思路也不同。

##2.1 誤差之和極小化

andrew ng 課程中對誤差之和的計算方法如下:

j (θ

)=1m

∑i=1

mcos

t(hθ

(x(i

)),y

(i))

cost

(hθ(

x),y

)=

&j(\theta)=\frac \sum\limits_^m cost(h_\theta(x^),y^) \\ &cost(h_\theta(x),y)= \begin -log(h_\theta(x)) \quad if\quad y=1 \\ -log(1-h_\theta(x)) \quad if\quad y=0 \end \end

​j(θ)=

m1​i

=1∑m

​cos

t(hθ

​(x(

i)),

y(i)

)cos

t(hθ

​(x)

,y)=

j(\theta)&=\frac\sum\limits_^m cost(h_\theta(x^),y^) \\ &=-\frac[\sum\limits_^m y^log(h_\theta(x^)) +(1-y^)log(1-h_\theta(x^))] \end

j(θ)​=

m1​i

=1∑m

​cos

t(hθ

​(x(

i)),

y(i)

)=−m

1​[i

=1∑m

​y(i

)log

(hθ​

(x(i

)))+

(1−y

(i))

log(

1−hθ

​(x(

i)))

]​求解誤差函式的極小值,即可得到 θ

\theta

θ 的估計值.

##2.2 似然函式極大化

設 p (y

=1∣x

)=π(

x),p

(y=0

∣x)=

1−π(

x)

p(y=1|x)=\pi (x), p(y=0|x)=1-\pi (x)

p(y=1∣

x)=π

(x),

p(y=

0∣x)

=1−π

(x) ,似然函式為:

∏ i=

1n[π

(xi)

]yi[

1−π(

xi)]

1−yi

\prod_^\big[\pi(x_i)\big]^\big[1-\pi(x_i)\big]^

i=1∏n​

[π(x

i​)]

yi​[

1−π(

xi​)

]1−y

i​對數似然函式為:

katex parse error: no such environment: align* at position 7: \begin̲ l(w) = &\sum_^\big[ y_i(w\cdot x)- \ln (1+exp(w\cdot x)) \big]

l(w)=i

=1∑n

​[yi

​(w⋅

x)−ln

(1+e

xp(w

⋅x))

]其梯度為:

katex parse error: no such environment: align* at position 7: \begin̲ \frac̲ &repeat \{ \…

JMS的兩種程式設計模型

jms訊息機制主要分為兩種模型 ptp模型和pub sub模型。ptp模型 point to point 對點模型 每乙個訊息傳遞給乙個訊息消費者,保證訊息傳遞給訊息消費者,且訊息不會同時被多個消費者接收。如果訊息消費者暫時不在連線範圍內,jms會自動保證訊息不會丟失,直到訊息消費者進入連線,訊息將...

CSS的兩種盒模型

關於css的盒子模型相信學習前端的同學都有所耳聞,因為它太基礎太重要了。提起盒子模型,大家可能會想到content,padding,border,margin這些詞彙,還有也許還會想起盒子模型有兩種,比如ie的盒子模型與w3c的盒子模型,那麼我們怎麼來區分呢?先來看看w3c的盒子模型 w3c 盒子模...

css的兩種盒模型

前言 初學 css 的時候 div 的一些寬高問題經常會引起一些不好理解的問題,這裡做乙個關於css盒模型的分享。問題下面的 可以直接複製出去執行哦 lang en charset utf 8 css盒模型title head type text css content style class co...