邏輯回歸和最大熵模型

因變數隨著自變數變化而變化。

多重線性回歸是用回歸方程描述乙個因變數與多個自變數的依存關係，簡稱多重回歸，其基本形式為：y= a + bx1+cx2+*+nxn。

二項分布即重複n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果，而且兩種結果發生與否互相對立，並且相互獨立，與其它各次試驗結果無關，事件發生與否的概率在每一次獨立試驗中都保持不變，則這一系列試驗總稱為n重伯努利實驗，當試驗次數為1時，二項分布服從0-1分布。

首先介紹似然函式

求出w以後，即求出了相應的邏輯回歸模型

多項是指y的取值有多項，不再是兩個.

優缺點：

優點：1）容易使用和解釋，實用價值高的常用市場**方法；

2）它是直接對分類可能性建模，無需事先假設資料分布，這樣就避免了假設分布不準確問題；

3）可以適用於連續性和類別性自變數；

缺點：1）對模型中自變數多重共線性較為敏感，例如兩個高度相關自變數同時放入模型，可能導致較弱的乙個自變數回歸符號不符合預期，符號被扭轉.需要利用因子分析或者變數聚類分析等手段來選擇代表性的自變數，以減少候選變數之間的相關性；

2）**結果呈「s」型，因此從log(odds)向概率轉化的過程是非線性的，在兩端隨著log(odds)值的變化，概率變化很小，邊際值太小，slope太小，而中間概率的變化很大，很敏感.導致很多區間的變數變化對目標概率的影響沒有區分度，無法確定閥值.

注意：當x是均勻分布的時候，h(p)=log|x|，取最大值

根據已有的資料，可以求出p~(x,y),p~(x),以及特徵函式f(x,y).

擁有上述變數以後，只要滿足下列等式的model都稱為最大熵模型

上面對於這個約束最優化問題進行了簡單的改寫，這樣便於我們統一理解這個問題（凸優化問題的統一形式），也便於程式的求解。

先應用拉格朗日定理，然後將其轉換到對偶問題。其中p為變數，在集合c中取值。

其中的對於左邊，是原帶約束優化問題的數學形式，只是將他寫成了乙個式子，首先在固定p的時候，求w使l(p,w)最大，這相當於在盡量去滿足它的約束。然後是min，就相當於在滿足約束的情況下求最小值，即原問題的表述。

對於右邊，則是對偶問題的定義，minl(p,w)是對偶函式，整個右邊式子定義為原問題的對偶問題。

其中的p屬於c集合，p中的唯一變數就是p(y|x),因此需要對p(y|x)求導。

上面求出了pw(y|x),其中的分母exp(1-w0)在歸一化的過程中抵消掉了。

上面的pw(y|x)相當於最大熵模型（只是具體形式，其中的wi目前還是未知數），接下來就需要求wi，wi可以通過對偶問題最外層的maxw求出。這樣就求出了最終的最大熵模型pw(y|x).還不明白的同學可以對照《統計學習方法》中的具體例子來計算一遍。

最大熵模型與邏輯斯諦回歸模型有類似的形式,它們又稱為對數線性模型(log linear model). 模型學習就是在給定的訓練資料條件下對模型進行極大似然估計或正則化的極大似然估計。

**於：