在深度網路中啟用函式的作用:
引入非線性。提公升網路的表達能力
啟用函式的對比
sigmoid:
sigmoid的計算量大(相比relu),反向傳播容易出現梯度消失,輸出均大於0,使得輸出均值不為0,出現偏移現象。
tanh:
雙曲正切計算量更大,依然有軟飽和性;
relu:
收斂速度比sigmoid和tanh快很多(差值更大導致loss更大),缺點是輸出會落入贏飽和區,影響網路收斂區。
lekyrelu:
解決relu死亡神經元的問題。.
softmax:參考;
就是如果某乙個 zj 大過其他 z, 那這個對映的分量就逼近於 1,其他就逼近於 0,主要應用就是多分類。
為什麼要取指數:
第乙個原因是要模擬 max 的行為,所以要讓大的更大。
第二個原因是需要乙個可導的函式。
啟用函式比較
sigmoid 和 relu 比較 sigmoid 的梯度消失問題,relu 的導數就不存在這樣的問題,它的導數表示式如下 曲線如圖 對比sigmoid類函式主要變化是 1 單側抑制 2 相對寬闊的興奮邊界 3 稀疏啟用性。sigmoid 和 softmax 區別 softmax is a gene...
啟用函式的比較,sigmoid,tanh,relu
如下圖,在神經元中,輸入inputs通過加權 求和後,還被作用了乙個函式。這個函式就是啟用函式activation function 如果不用啟用函式,每一層輸出都是上層輸入的線性函式,無論神經網路有多少層,輸出都是輸入的線性組合。與沒有隱藏層效果相當,這種情況就是最原始的感知機了。使用的話,啟用函...
深度學習啟用函式比較
一 sigmoid函式 1 表示式 2 函式曲線 3 函式缺點 反向求導 而其中 所以,由上述反向傳播公式可以看出,當神經元數值無線接近1或者0的時候,在反向傳播計算過程中,梯度也幾乎為0,就導致模型引數幾乎不更新了,對模型的學習貢獻也幾乎為零。也稱為引數瀰散問題或者梯度瀰散問題。同時,如果初始權重...