lr可以看成是softmax的特例。 lr主要是用於二分類,如果面臨的是多分類問題,可以用softmax。softmax通常也是深度學習影象識別網路的最後一層。
在lr中,引數
θ 是乙個向量,而在softmax中,引數可以看成是乙個矩陣。也就是每乙個輸出都對應著乙個引數向量:hθ
(xi)
=⎡⎣⎢
⎢⎢⎢⎢
p(yi
=1|x
i;θ)
p(yi
=2|x
i;θ)
⋮p(y
i=k|
xi;θ
)⎤⎦⎥
⎥⎥⎥⎥
=1∑k
j=1e
θtj⋅
xi⎡⎣
⎢⎢⎢⎢
⎢⎢eθ
t1⋅x
ieθt
2⋅xi
⋮eθt
k⋅xi
⎤⎦⎥⎥
⎥⎥⎥⎥
其中 k 是類別數。這裡 xi
、yi 的下標表示第i個資料。θk
的下標表示第k類對應的引數向量。
這樣,與lr類似,將上式寫在一起:p(
yi|x
i;θ)
=∏j=
1k⎛⎝
eθtj
xi∑k
j=1e
θtj⋅
xi⎞⎠
i(yi
=j)
i 是[0,1]的判別函式。
概率形式有了就可以寫出最大似然:l(
θ)=∏
i=1m
p(yi
|xi;
θ)取對數:l(
θ)=ln
l(θ)
=ln∏i
=1mp
(yi|
xi;θ
)=ln∏
i=1m
∏j=1
k⎛⎝e
θtjx
i∑kj
=1eθ
tj⋅x
i⎞⎠i
(yi=
j)=∑
i=1m
∑j=1
ki(y
i=j)
ln⎛⎝e
θtjx
i∑kj
=1eθ
tj⋅x
i⎞⎠=
∑i=1
m∑j=
1ki(
yi=j
)⎡⎣ln
eθtj
xi−ln
∑j=1
keθt
j⋅xi
⎤⎦對 θj
的第 p 個分量 θp
j求導數:∂l
(θ)∂
θpj=
∑i=1
m⎡⎣i
(yi=
j)⎡⎣
xpi−
eθtj
⋅xi∑
kj=1
eθtj
⋅xix
pi⎤⎦
⎤⎦=∑
i=1m
xpi[
i(yi
=j)−
p(yi
=j|x
i;θ)
] 之後用梯度下降法就可以了。推導的關鍵之處就是寫出概率表示 p(
yi|x
i;θ)
。
機器學習 softmax啟用函式
softmax函式 softmax函式,一般用於多分類的問題上,將多個神經元的輸入,對映在 0,1 之間。可以當作概率的計算。這一點跟sigmoid函式相似。softmax的計算公式為 s i ei j 1ne js i frac n e j si j 1n ejei 值得關注的是 i 1nsi 1...
機器學習 模型推導
支援向量機通俗導論 理解svm的三層境界 最大熵模型中的數學推導 em演算法的兩個理解角度 資料探勘領域十大經典演算法之 em演算法 如何通俗地講解 viterbi 演算法?通俗理解lda主題模型 從拉普拉斯矩陣說到譜聚類 從貝葉斯方法談到貝葉斯網路 cnn筆記 通俗理解卷積神經網路 程式設計師面試...
機器學習中的Softmax函式
在使用logistic做線性回歸時,如果我們遇到多分類的問題,我們可以考慮使用softmax函式進行篩選 函式公式如下 so ftma x yi expyi jexpyj 原理是對logistic回歸所取得的評分 score 逐個求對數,然後除以所有評分的對數的總和,可以理解為取評分最高的乙個分類。...