sigmoid 和 relu 比較:
sigmoid 的梯度消失問題,relu 的導數就不存在這樣的問題,它的導數表示式如下:
曲線如圖
對比sigmoid類函式主要變化是:
1)單側抑制
2)相對寬闊的興奮邊界
3)稀疏啟用性。
sigmoid 和 softmax 區別:
softmax is a generalization of logistic function that 「squashes」(maps) a k-dimensional vector z of arbitrary real values to a k-dimensional vector σ(z) of real values in the range (0, 1) that add up to 1.
sigmoid將乙個real value對映到(0,1)的區間,用來做二分類。
而 softmax 把乙個 k 維的real value向量(a1,a2,a3,a4….)對映成乙個(b1,b2,b3,b4….)其中 bi 是乙個 0~1 的常數,輸出神經元之和為 1.0,所以相當於概率值,然後可以根據 bi 的概率大小來進行多分類的任務。
二分類問題時 sigmoid 和 softmax 是一樣的,求的都是 cross entropy loss,而 softmax 可以用於多分類問題
softmax是sigmoid的擴充套件,因為,當類別數 k=2 時,softmax 回歸退化為 logistic 回歸。具體地說,當 k=2 時,softmax 回歸的假設函式為:
利用softmax回歸引數冗餘的特點,從兩個引數向量中都減去向量θ1 ,得到:
最後,用 θ′ 來表示 θ2−θ1,上述公式可以表示為 softmax 回歸器**其中乙個類別的概率為
另乙個類別概率的為
這與 logistic回歸是一致的。
softmax建模使用的分布是多項式分布,而logistic則基於伯努利分布
多個logistic回歸通過疊加也同樣可以實現多分類的效果,但是 softmax回歸進行的多分類,類與類之間是互斥的,即乙個輸入只能被歸為一類;多個logistic回歸進行多分類,輸出的類別並不是互斥的,即」蘋果」這個詞語既屬於」水果」類也屬於」3c」類別。
選擇的時候,就是根據各個函式的優缺點來配置,例如:
啟用函式的比較
在深度網路中啟用函式的作用 引入非線性。提公升網路的表達能力 啟用函式的對比 sigmoid sigmoid的計算量大 相比relu 反向傳播容易出現梯度消失,輸出均大於0,使得輸出均值不為0,出現偏移現象。tanh 雙曲正切計算量更大,依然有軟飽和性 relu 收斂速度比sigmoid和tanh快...
啟用函式的比較,sigmoid,tanh,relu
如下圖,在神經元中,輸入inputs通過加權 求和後,還被作用了乙個函式。這個函式就是啟用函式activation function 如果不用啟用函式,每一層輸出都是上層輸入的線性函式,無論神經網路有多少層,輸出都是輸入的線性組合。與沒有隱藏層效果相當,這種情況就是最原始的感知機了。使用的話,啟用函...
深度學習啟用函式比較
一 sigmoid函式 1 表示式 2 函式曲線 3 函式缺點 反向求導 而其中 所以,由上述反向傳播公式可以看出,當神經元數值無線接近1或者0的時候,在反向傳播計算過程中,梯度也幾乎為0,就導致模型引數幾乎不更新了,對模型的學習貢獻也幾乎為零。也稱為引數瀰散問題或者梯度瀰散問題。同時,如果初始權重...