啟用函式詳解

elus是「指數線性單元」，它試圖將啟用函式的平均值接近零，從而加快學習的速度。同時，它還能通過正值的標識來避免梯度消失的問題。根據一些研究，elus分類精確度是高於relus的。具有relu的優勢，且輸出均值接近零，實際上prelu和leakyrelu都有這一優點。有負數飽和區域，從而對雜訊有一些魯棒性。可以看做是介於relu和leakyrelu之間的乙個東西。當然，這個函式也需要計算exp，從而計算量上更大一些。

bert原始碼中有乙個神奇的啟用函式，那就是gelus，在啟用函式領域，大家公式的鄙視鏈應該是：elus > relu > sigmoid ，這些啟用函式都有自身的缺陷，sigmoid容易飽和，elus與relu缺乏隨機因素。

bert原始碼給出的gelu**表示如下：

def gelu(input_tensor):
cdf = 0.5 * (1.0 + tf.erf(input_tensor / tf.sqrt(2.0)))
return input_tesnsor*cdf

gelus其實是dropout、zoneout、relus的綜合，gelus對於輸入乘以乙個0，1組成的mask，而該mask的生成則是依概率隨機的依賴於輸入。假設輸入為x, mask為m，則m服從乙個伯努利分布 (φ(

x)，φ

(x)=

p(x<=x

),x服

從正態分

布)(φ(x)，φ(x)=p(x<=x), x服從正態分佈)

(φ(x)，

φ(x)

=p(x

<=x

),x服

從正態分

布)這麼選擇是因為神經元的輸入趨向於正太分布，這麼設定使得當輸入x減小的時候，輸入會有乙個更高的概率被dropout掉，這樣的啟用變換就會隨機依賴於輸入了。

啟用函式詳解

深度學習之啟用函式詳解

深度學習之啟用函式詳解

什麼是啟用函式？常用的啟用函式

啟用函式詳解

深度學習之啟用函式詳解

深度學習之啟用函式詳解

什麼是啟用函式？常用的啟用函式

相關推薦