s of
tmax
softmax
softma
x是機器學習中很重要的分類函式。通常位於神經網路的最後一層,它的作用是將前面輸出層的資料轉換為概率分布,這個概率分布的特點就是:任意事件發生的概率在0-1之間,且所有事件發生的概率總和為1,並且總有乙個事件會發生。
假設原始的神經網路輸出為y1,
y2..
..yn
y_,y_....y_
y1,y2
...
.yn
,那麼經過softmax回歸處理之後的輸出如下:
s of
tmax
(y)i
=yi′
=eyi
∑j=i
neyj
=exp
(yi′
)∑j=
1nex
p(yj
′)softmax(y)_=y_^=\frac}^e^}=\frac^)}^exp(y_^)}
softma
x(y)
i=y
i′=
∑j=i
ney
jeyi
=∑j
=1n
exp(
yj′
)exp
(yi′
)上述公式解釋如下:
y jy_
yj 表示輸入到sof
tmax
softmax
softma
x之前每乙個單元的值,經過sof
tmax
softmax
softma
x之後,這些單元的數量沒有改變,數值變成了概率分布;用i
ii代表經過sof
tmax
softmax
softma
x之後的每乙個單元;yjy_
yj 經過sof
tmax
softmax
softma
x之後變成yi′
y_^yi
′上述公式的分母相當於所有經過sof
tmax
softmax
softma
x轉變之後的資料之和,分子是其中乙個資料轉變的結果。
上面的過程就是sof
tmax
softmax
softma
x的分類過程,簡單說明如下:
我們以數字識別為例:
1,數字識別問題最終是乙個10分類問題(分類結果以0,1,2,3,4,5,6,7,8,9劃分)
2,資料輸入是乙個28x28=784維的向量(假設我們分析一張)
3,經過神經網路的層層篩選,最終到達sof
tmax
softmax
softma
x這一層之前,輸出是乙個10維的向量
4,經過sof
tmax
softmax
softma
x轉換為10個概率
5,由於是做資料訓練,因此我們會有標籤做對標
6,利用交叉熵計算這一組10個概率分類與正確標籤之間的距離(相當於計算損失值)
7,反向傳播更新權值直到結果符合我們要求。
以上就是softmax的工作過程,至於公式推導過程,這裡不做贅述。公式推導本身並不難,了解這個函式的用法更加實用,希望對大家有所幫助。
通俗易懂地講解 Vue router
charset utf 8 vuejs 教程title name viewport content width device width,initial scale 1.0,maximum scale 1.0,user scalable 0 content yes content black rou...
通俗易懂講解 CAP理論
乙個分布式系統裡面,節點組成的網路本來應該是連通的。然而可能因為一些故障,使得有些節點之間不連通了,整個網路就分成了幾塊區域。資料就散布在了這些不連通的區域中。這就叫分割槽。當你乙個資料項只在乙個節點中儲存,那麼分割槽出現後,和這個節點不連通的部分就訪問不到這個資料了。這時分割槽就是無法容忍的。提高...
最通俗易懂的p value講解
這個問題,曾一度讓我懷疑我根本都沒有學懂知識,只是像規則一樣記住然後胡亂使用而已。此番記錄就當再次考驗我是否真正理解到p value的含義。p value,代表在原假設條件下,實驗事件可能發生的概率。舉例說明 拋一枚硬幣,正面朝上和反面朝上的概率是一樣的,各50 但這是有前提條件的,即硬幣是均勻的 ...