六 邏輯回歸與最大熵模型

2021-07-30 08:33:28 字數 3032 閱讀 1579

2最大熵模型

3模型學習的最優化演算法

邏輯回歸(logistic regression)是統計學習中的經典分類方法。最大熵是概率模型學習的乙個準則,將其推廣到分類問題得到最大熵模型(maximum entropy model)。邏輯回歸與最大熵模型都屬於對數線性模型

6.1.1 邏輯分布(logistics regression)

定義:

x 是連續隨機變數,

x服從邏輯分布是指

x 具有下列分布函式和密度函式: f(

x)=p

(x≤x

)=11

+e−(

x−μ)

/γf(

x)=f

′(x)

=e−(

x−μ)

/γγ(

1+e−

(x−μ

)/γ)

2 分布函式屬於邏輯函式,其圖形是一條s型曲線(sigmoid curve)。該曲線以點(μ

,12)

為中心對稱。

6.1.2二項邏輯回歸模型

二項邏輯回歸模型(binomial logistics regression model)是一種分類模型,由條件概率分布p(

y|x)

表示,形式為引數化的邏輯分布。其中,隨機變數

x 取值為實數,隨機變數

y取值為1或0。我們通過監督學習的方法來估計模型引數。

定義:二項邏輯回歸模型是如下的條件概率分布: p(

y=1|

x)=e

xp(ω

⋅x+b

)1+e

xp(ω

⋅x+b

) p(

y=0|

x)=1

1+ex

p(ω⋅

x+b)

其中,ω 稱為權值向量,b稱為偏置,ω⋅

x 為內積。

邏輯分布的密度函式f(x)和分布函式f(x)的圖形如圖所示。分布函式屬於邏輯函式,其圖形是一條s形曲線(sigmoid curve)。該曲線以點(u, 1/2)為中心對稱,即滿足

- 曲線在中心附近增長速度較快,在兩端增長速度較慢形狀引數y的值越小,曲線在中心附近增長得越快.

邏輯回歸比較兩個條件概率值的大小,將例項

x 分到概率值大的那一類。

6.1.3模型引數估計

邏輯回歸模型學習時,對於給定的訓練資料集t=

(x1,

y1),

(x2,

y2),

⋯,(x

n,yn

),,可以應用極大似然估計法估計模型引數,從而得到邏輯回歸模型

p(y

=1|x

)=π(

x),則

p(y=

0|x)

=1−π

(x)

似然函式為∏i

=1n[

π(xi

)]yi

[1−π

(xi)

]1−y

i

設對數似然函式為l(

ω),對l(

ω)求極大值,得到

ω 的估計值。

這樣,問題就標稱了以對數似然函式為目標函式的最優化問題。邏輯回歸學習中通常採用的方法是梯度下降法以及擬牛頓法。

6.1.4多項邏輯回歸

上面介紹的邏輯回歸模型是二項分類模型,用於二類分類,可以將其推廣為多項邏輯分類模型(multi-nominal logistics regression model),用於多類分類。

最大熵模型(maximum entropy model)是由最大熵原理推導實現。

6.2.1最大熵原理

最大熵原理認為,學習概率模型時,在所有的可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用約束條件來確定概率模型的集合。所以,最大熵原理也可以表述為在滿足約束條件的模型集合中選取熵最大的模型。

在資訊理論與概率統計中,熵(entropy)是表示隨機變數不確定性的度量。設

x 是乙個取有限個值的離散隨機變數,其概率分布為p(

x=xi

)=pi

,i=1

,2,⋯

,n則隨機變數

x 的定義為h(

x)=−

∑i=1

npilogpi

直觀地,最大熵原理認為要選擇的概率模型首先必須滿足已有的事實,即約束條件。在沒有更多資訊的情況下,那些不確定的部分都是「等可能的」

6.2.2最大熵模型的定義

假設滿足所有約束條件的模型集合為

定義在條件概率分布p(y|x)上的條件熵為

則模型集合c中條件熵h(p)最大的模型稱為最大熵模型。

6.2.3最大熵模型的學習

最大熵模型的學習過程就是求解最大熵模型的過程,可以形式化為約束最優化問題。

轉換成

6.2.4極大似然估計

最大熵模型學習中的對偶函式極大化等價於最大熵模型的極大似然估計,最大熵模型的學習問題就轉換為具體求解對數似然函式極大化或對偶函式極大化的問題。

對數似然函式為:

目標函式為:

最大熵模型的一般形式為:

邏輯回歸,最大熵模型學習歸結為以似然函式為目標函式的最優化問題,通常通過迭代演算法求解。

從最優化的觀點看,這時的目標函式具有很好的性質。它是光滑的凸函式,因此多種最優化的方法都適用,保證能找到全域性最優解。常用的方法有改進的迭代尺度法,梯度下降法,牛頓法或擬牛頓法。牛頓法或擬牛頓法一般收斂速度較快。

邏輯回歸和最大熵模型

因變數隨著自變數變化而變化。多重線性回歸是用回歸方程描述乙個因變數與多個自變數的依存關係,簡稱多重回歸,其基本形式為 y a bx1 cx2 nxn。二項分布即重複n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,並且相互獨立,與其它各次試驗結果無關,事件發生與否的...

Logistic回歸與最大熵模型

文章記錄的內容是參加datawhale的組隊學習統計學習方法 第二版 習題解答過程中的筆記與查缺補漏!參考解答位址 logistic回歸與最大熵模型。解答思路 列出 logistic 分布的定義 列出指數分布族的定義 通過指數傾斜,證明logistic分布的分布函式無法表示成指數分布族的分布函式形式...

邏輯斯諦回歸與最大熵模型 分類 監督方法

英國政治經濟學家馬爾薩斯在1789年提出了第乙個描述種群增長的馬爾薩斯人口增長模型,如下所示,y t 為種群中的個體數量,是時間t的函式,k為比例常數 也稱內生增長率 跟環境有關。dy dt k y y ekt dyd t ky y e kt 該模型中假設在無侷限的環境下,養分充足,沒有天敵,種群免...