Logistic回歸與最大熵模型

2022-09-10 10:42:15 字數 1827 閱讀 1724

文章記錄的內容是參加datawhale的組隊學習統計學習方法(第二版)習題解答過程中的筆記與查缺補漏!

參考解答位址:logistic回歸與最大熵模型。

解答思路

列出 logistic 分布的定義

列出指數分布族的定義

通過指數傾斜,證明logistic分布的分布函式無法表示成指數分布族的分布函式形式

先看一下什麼是 logistic 分布:

設\(x\)是連續隨機變數,\(x\)服從logistic分布是指\(x\)具有下列分布函式和密度函式:

\[f(x) = p(x \leqslant x) = \frac^} \\

f(x) = f'(x) = \frac^}^)^2}

\]式中,\(\mu\)為位置引數,\(\gamma > 0\)為形狀引數。

再了解與以下指數分布族(注意不是指數分布!):

對於隨機變數\(x\),在給定引數\(\theta\)下,其概率分別滿足如下形式:

\[f(x|\theta)=h(x)g(\theta)\exp(\eta(\theta)\cdot t(x))

\]稱之為指數分布族。

其中:\(g(\theta)\)表示歸一化係數,\(h(x)>0\)

後續的證明沒有看懂,可以參考:

解答思路

寫出 logistic 回歸模型

根據書中附錄a梯度下降法,寫出 logistic 回歸模型學習的梯度下降法

自程式設計實現 logistic 回歸模型學習的梯度下降法

回顧一下 logistic 模型:

\[p(y = 1 \mid x) = \frac }}

\]\[p(y = 0 \mid x) = \frac}

\]

既然要求梯度,那麼肯定是要目標函式的。在求解邏輯回歸模型的引數時,可以通過極大似然法估計引數,也可以用交叉熵損失函式。當然,這二者是等價的。

從極大似然的角度出發。隨機變數 \(y\) 的概率分布為:\(p(y \mid x) = (\frac }}\: )^ \cdot \: (\frac}\: )^\)。那麼似然函式為:

\[l = \prod_^n p(y_i \mid x_i)

\]取對數後的似然函式為:

\[\begin

\log l &= \log \prod_^n p(y_i \mid x_i) \\

&= \sum_^n \log (\frac }}\: )^ \cdot \: (\frac}\: )^ \\

&= \sum_^n i(y_i = 1) \log \frac }} + i(y_i = 0) \log \frac} \\

&= \sum_^n y_i \log \frac }} + (1 - y_i) \log \frac} \\

&= \sum_^n y_i (w \cdot x_i + b) - \log (1 + e^)

\end

\]對 \(\log l\) 求偏導後可得:

\[\begin\frac = \sum_^n (y_i - \frac } }\: ) x_i, & \\

\frac = \sum_^n y_i - \frac } } & \end

\]解答思路

寫出最大熵模型

根據附錄b的dfp演算法,寫出最大熵模型學習的dfp演算法

自程式設計實現最大熵模型學習的dfp演算法

最大熵模型一直沒看太懂,參考這裡。

第六章 logistic回歸與最大熵模型

1 logistic回歸是統計學習中的經典分類方法。最大熵模型 最大熵是概率模型學習的乙個準則,將其推廣到分類問題得到最大熵模型。兩者都是對數線性模型。2 二項logstic分類模型 用於二類分布。多項 logstic分類模型 用於多類分布。3 最大熵模型 maximum entropy model...

六 邏輯回歸與最大熵模型

2最大熵模型 3模型學習的最優化演算法 邏輯回歸 logistic regression 是統計學習中的經典分類方法。最大熵是概率模型學習的乙個準則,將其推廣到分類問題得到最大熵模型 maximum entropy model 邏輯回歸與最大熵模型都屬於對數線性模型。6.1.1 邏輯分布 logis...

邏輯回歸和最大熵模型

因變數隨著自變數變化而變化。多重線性回歸是用回歸方程描述乙個因變數與多個自變數的依存關係,簡稱多重回歸,其基本形式為 y a bx1 cx2 nxn。二項分布即重複n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,並且相互獨立,與其它各次試驗結果無關,事件發生與否的...