2. 最大熵模型
3. 模型學習的最優化演算法(略)
邏輯回歸與最大熵模型都屬於對數線性模型。
二項邏輯回歸模型是一種分類模型,描述的是條件概率分布p(y
∣x)p(y|x)
p(y∣x)
,隨機變數x取值為實數,隨機變數y取值為0或1,邏輯回歸模型是如下的條件概率分布:(有時為了簡單,也直接把wx+
bwx+b
wx+b
簡寫成wxwx
wx)p(y
=1∣x
)=ex
p(wx
+b)1
+exp
(wx+
b)p(y=1|x)=\frac
p(y=1∣
x)=1
+exp
(wx+
b)ex
p(wx
+b)
p (y
=0∣x
)=11
+exp
(wx+
b)p(y=0|x)=\frac
p(y=0∣
x)=1
+exp
(wx+
b)1
邏輯回歸比較兩個條件概率值的大小,將例項x分到概率值較大的那一類。
現在考慮邏輯回歸的特點:
乙個事件的機率(odds)是指該事件發生的概率與該事件不發生的概率的比值。如果事件發生的概率是p,那麼該事件的機率是p1−
p\frac
1−pp
,改時間的對數機率(log odds)或logit函式是:
l og
it(p
)=lo
gp1−
plogit(p)=log\frac
logit(
p)=l
og1−
pp對邏輯回歸而言,
l og
p(y=
1∣x)
1−p(
y=1∣
x)=w
xlog\frac=wx
log1−p
(y=1
∣x)p
(y=1
∣x)
=wx也就是說,在邏輯回歸模型中,輸出y=1
y=1y=
1的對數機率是輸入x的線性函式。或者說,輸出y=1
y=1y=
1的對數機率是由輸入x的線性函式表示的模型,即邏輯回歸模型。
邏輯回歸模型學習時,對於給定的訓練集t=(
x1,y
1),(
x2,y
2),.
..,(
xn,y
n)t=t=
(x1
,y1
),(x
2,y
2),
...,
(xn
,yn
),可以用極大似然估計法來估計模型引數,從而得到邏輯回歸模型。
步驟:寫出似然函式(或對數似然函式)
問題轉換成了以似然函式(對數似然函式)作為目標函式的最優化問題,使用梯度下降法或擬牛頓法求解。
得到模型引數的估計值後,代入邏輯回歸模型。
前面的模型是二分類模型,可以推廣為多分類模型,假設隨機變數y的取值集合為1,2
,3,.
..k1,
2,3,
...k
,多項邏輯回歸模型是:
p (y
=k∣x
)=ex
p(wk
)1+∑
k=1k
−1ex
p(wk
x)p(y=k|x)=\frac^exp(w_kx)}
p(y=k∣
x)=1
+∑k=
1k−1
exp
(wk
x)ex
p(wk
)p(y
=k∣x
)=11
+∑k=
1k−1
exp(
wkx)
p(y=k|x)=\frac^exp(w_kx)}
p(y=k∣
x)=1
+∑k=
1k−1
exp
(wk
x)1
最大熵原理:在滿足約束條件的模型集合中,選取熵最大的模型。
最大熵模型的定義:首先確定所有約束條件的模型集合,然後定義條件熵,在模型集合中,條件熵最大的模型稱為最大熵模型。
對偶函式的極大化等價於最大熵模型的極大似然估計。
統計學習方法學習筆記(第六章 邏輯斯諦回歸模型)
乙個時間的機率 odds 是指該事件發生的概率與該事件不發生概率的比值。如果事件發生的概率是p,那麼該事件的機率是p 1 p,二項邏輯斯諦回歸模型是一種分類模型,對於這種模型而言,對數機率的值是w點x。這就是說,在邏輯斯諦回歸模型中,輸出y 1的對數機率是輸入x的線性函式。或者說,輸出y 1的對數機...
統計學教程 第六章 抽樣推斷
第六章 抽樣推斷 一 引數與統計量 引數是指描述總體分布狀況的數 統計量是指由樣本構造出來的數。例如,乙個班的學生的平均年齡為22歲,平均年齡即為班組總體的乙個引數 在班級中抽出10名學生,了解其年齡,並根據10名學生的年齡計算平均數為21.5歲,則21.5即為由樣本構造出來的統計量。抽樣推斷,就是...
統計學習方法五 邏輯回歸分類
邏輯回歸分類 1,概念 2,演算法流程 3,多分類邏輯回歸 4,邏輯回歸總結 優點 1 結果是界於0和1之間的概率 2 可以適用於連續性和類別性自變數 3 容易使用和解釋 缺點 1 對模型中自變數多重共線性較為敏感,例如兩個高度相關自變數同時放入模型,可能導致較弱的乙個自變數回歸符號不符合預期,符號...