統計學習方法 第六章 邏輯回歸與最大熵模型

2021-09-23 06:00:15 字數 2454 閱讀 8932

2. 最大熵模型

3. 模型學習的最優化演算法(略)

邏輯回歸與最大熵模型都屬於對數線性模型

二項邏輯回歸模型是一種分類模型,描述的是條件概率分布p(y

∣x)p(y|x)

p(y∣x)

,隨機變數x取值為實數,隨機變數y取值為0或1,邏輯回歸模型是如下的條件概率分布:(有時為了簡單,也直接把wx+

bwx+b

wx+b

簡寫成wxwx

wx)p(y

=1∣x

)=ex

p(wx

+b)1

+exp

(wx+

b)p(y=1|x)=\frac

p(y=1∣

x)=1

+exp

(wx+

b)ex

p(wx

+b)​

p (y

=0∣x

)=11

+exp

(wx+

b)p(y=0|x)=\frac

p(y=0∣

x)=1

+exp

(wx+

b)1​

邏輯回歸比較兩個條件概率值的大小,將例項x分到概率值較大的那一類。

現在考慮邏輯回歸的特點:

乙個事件的機率(odds)是指該事件發生的概率與該事件不發生的概率的比值。如果事件發生的概率是p,那麼該事件的機率是p1−

p\frac

1−pp

​,改時間的對數機率(log odds)或logit函式是:

l og

it(p

)=lo

gp1−

plogit(p)=log\frac

logit(

p)=l

og1−

pp​對邏輯回歸而言,

l og

p(y=

1∣x)

1−p(

y=1∣

x)=w

xlog\frac=wx

log1−p

(y=1

∣x)p

(y=1

∣x)​

=wx也就是說,在邏輯回歸模型中,輸出y=1

y=1y=

1的對數機率是輸入x的線性函式。或者說,輸出y=1

y=1y=

1的對數機率是由輸入x的線性函式表示的模型,即邏輯回歸模型。

邏輯回歸模型學習時,對於給定的訓練集t=(

x1,y

1),(

x2,y

2),.

..,(

xn,y

n)t=t=

(x1​

,y1​

),(x

2​,y

2​),

...,

(xn​

,yn​

),可以用極大似然估計法來估計模型引數,從而得到邏輯回歸模型。

步驟:寫出似然函式(或對數似然函式)

問題轉換成了以似然函式(對數似然函式)作為目標函式的最優化問題,使用梯度下降法擬牛頓法求解。

得到模型引數的估計值後,代入邏輯回歸模型。

前面的模型是二分類模型,可以推廣為多分類模型,假設隨機變數y的取值集合為1,2

,3,.

..k1,

2,3,

...k

,多項邏輯回歸模型是:

p (y

=k∣x

)=ex

p(wk

)1+∑

k=1k

−1ex

p(wk

x)p(y=k|x)=\frac^exp(w_kx)}

p(y=k∣

x)=1

+∑k=

1k−1

​exp

(wk​

x)ex

p(wk

​)​p(y

=k∣x

)=11

+∑k=

1k−1

exp(

wkx)

p(y=k|x)=\frac^exp(w_kx)}

p(y=k∣

x)=1

+∑k=

1k−1

​exp

(wk​

x)1​

最大熵原理:在滿足約束條件的模型集合中,選取熵最大的模型

最大熵模型的定義:首先確定所有約束條件的模型集合,然後定義條件熵,在模型集合中,條件熵最大的模型稱為最大熵模型。

對偶函式的極大化等價於最大熵模型的極大似然估計。

統計學習方法學習筆記(第六章 邏輯斯諦回歸模型)

乙個時間的機率 odds 是指該事件發生的概率與該事件不發生概率的比值。如果事件發生的概率是p,那麼該事件的機率是p 1 p,二項邏輯斯諦回歸模型是一種分類模型,對於這種模型而言,對數機率的值是w點x。這就是說,在邏輯斯諦回歸模型中,輸出y 1的對數機率是輸入x的線性函式。或者說,輸出y 1的對數機...

統計學教程 第六章 抽樣推斷

第六章 抽樣推斷 一 引數與統計量 引數是指描述總體分布狀況的數 統計量是指由樣本構造出來的數。例如,乙個班的學生的平均年齡為22歲,平均年齡即為班組總體的乙個引數 在班級中抽出10名學生,了解其年齡,並根據10名學生的年齡計算平均數為21.5歲,則21.5即為由樣本構造出來的統計量。抽樣推斷,就是...

統計學習方法五 邏輯回歸分類

邏輯回歸分類 1,概念 2,演算法流程 3,多分類邏輯回歸 4,邏輯回歸總結 優點 1 結果是界於0和1之間的概率 2 可以適用於連續性和類別性自變數 3 容易使用和解釋 缺點 1 對模型中自變數多重共線性較為敏感,例如兩個高度相關自變數同時放入模型,可能導致較弱的乙個自變數回歸符號不符合預期,符號...