深度學習之啟用函式總結

深度學習中啟用函式的作用是能夠給神經網路加入一些非線性因素，使得神經網路可以更好地解決較為複雜的問題。沒有啟用函式，即便有再多的隱藏層，其整個網路跟單層神經網路也是等價的，可見啟用函式的重要性如此之大。下面，分別介紹深度學習中常用的啟用函式。

sigmoid的公式如下：

函式對應的影象如下：

優點：1. sigmoid函式的輸出對映在(0,1)之間，單調連續，輸出範圍有限，優化穩定，可以用於輸入的歸一化，也可以用作輸出層。

2. 求導容易

缺點：1. 由於其軟飽和性，即容易產生梯度消失，導致訓練出現問題。

2. 其輸出並不是以0為中心的。

tanh的公式如下：

函式對應的影象如下：

優點：1. 比sigmoid函式收斂速度更快。

2. 相比sigmoid函式，其輸出以0為中心。

缺點：1. 依舊具有軟飽和問題。

relu的公式如下：

函式對應的影象如下：

優點：1. relu具有線性、非飽和的特點，並且相比sigmoid和tanh，relu的收斂速度更快。

2. relu實現比較簡單。

3. relu有效緩解了梯度下降問題。

4. 提供了神經網路的稀疏表達能力

缺點：1. 隨著訓練的進行，可能會出現神經元死亡，權重無法更新的情況。

2. 當x<0時，relu是硬飽和的。

針對在x<0時的硬飽和問題，lrelu對relu進行了改進，其公式如下：

函式的影象如下：

lrelu的目的是避免梯度消失，所以lrelu對準確率並沒有太大的影響。此外，必須非常小心謹慎地重複訓練，從而選取合適的引數a。這樣會十分麻煩，因此prelu就此誕生，可以自適應地從資料中學習引數。prelu具有收斂速度快、錯誤率低的特點，可以用於反向傳播的訓練。

elu的公式如下：

函式的影象如下：

優點：1. elu融合了sigmoid和relu,左側具有軟飽和性，右側無飽和性。

右側線性部分使得elu能夠緩解梯度消失，而左側軟飽能夠讓elu對輸入變化或雜訊更魯棒。

2. elu的輸出均值接近於零，所以收斂速度更快。

關於啟用函式的選取，需要結合實際情況，並且要考慮不同啟用函式的優缺點，不能盲目使用一種啟用函式。