swish是google在10月16號提出的一種新型啟用函式,其原始公式為:f(x)=x * sigmod(x),變形swish-b啟用函式的公式則為f(x)=x * sigmod(b * x),其擁有不飽和,光滑,非單調性的特徵,而google在**中的多項測試表明swish以及swish-b啟用函式的效能即佳,在不同的資料集上都表現出了要優於當前最佳啟用函式的效能.
啟用函式常在神經網路中用於新增非線性因素,可以將啟用函式定義為乙個幾乎處處可微的函式:h : r → r .[1].
啟用函式存在飽和問題,當啟用函式滿足上述公式第一種情況時,稱之為右飽和,反之為左飽和.
如果啟用函式在非極限狀態下存在乙個常數c可以證明,在x大於或小於該常數c時,h(x)的一次導數存在恆等於零的情況時,則稱h(x)為右硬飽和函式或左硬飽和函式.否則稱其為軟飽和函式.
因為反向傳播演算法的計算方式,可證明飽和啟用函式會導致神經網路的效能大幅度下降.從而產生梯度消失問題,如常見的sigmod或tanh函式都存在該問題.
而現在深度神經網路中常用的啟用函式為relu啟用函式,其存在有上界,無下界,光滑的特點,其變種擁有在大多數資料集上的最佳效能.但是其變種複雜多樣想要使用仍然存在很多的除錯問題.而新的swish函式則不同,其swish-b形式在谷歌**中的大型資料集即各種神經網路中中擁有絕對的優勢,雖然現在還沒有數學證明,但是其實踐結果卻可能意味著,我們之後再也不需要測試很多的啟用函式了,這大大降低了我們的工作量.
swish與relu一樣有上界而無下界,但是其非單調性確與其他常見的啟用函式不同,通知其也擁有平滑和一階導數,二階導數平滑的特性.
谷歌測試證明,swich適應於區域性響應歸一化,並且在40以上全連線層的效果要遠優於其他啟用函式,而在40全連線層之內則效能差距不明顯.但是根據在mnist資料上alenet的測試效果卻證明,swich在低全連線層上與relu的效能差距依舊有較大的優勢.
對於mnist資料集而言,五層內的全連線層已經可以達到更好的測試效能,但是為了測試兩種啟用函式的不同,我使用了3,10,45三種不同的全連線層進行測試,同時為了加大資料集的難度,我同時使用了fashion-mnist資料集進行測試
測試結果:
google的**告訴我們在更大的資料集與更深的神經網路上,swish擁有更好的效能,而且當其與區域性響應歸一化結合使用時,味道更佳,但是我們在mnist與fashion-mnist資料集上的測試同時也表明,其實在部分中小型資料集上swish啟用函式,可能也擁有不錯的效能表現.優於該函式沒有數學證明,我們在使用時可能需要多實踐一些.但是總體上我們可以認為,該啟用函式是有效的.看來我們之後又多了乙個煉丹的利器.
參考 [1] noisy activation functions: caglar gulcehre, marcin moczulski
,misha denil, yoshua bengio.arxiv:1603.00391v3
[2] fashion-mnist: a novel image dataset for benchmarking machine learning algorithms. han xiao, kashif rasul, roland vollgraf. arxiv:1708.07747
[3] swish: a self-gated activation function.prajit ramachandran, barret zoph, quoc v. leoc v. le. arxiv:1710.05941
Google提出的新型啟用函式 Swish
swish是google在10月16號提出的一種新型啟用函式,其原始公式為 f x x sigmod x 變形swish b啟用函式的公式則為f x x sigmod b x 其擁有不飽和,光滑,非單調性的特徵,而google在 中的多項測試表明swish以及swish b啟用函式的效能即佳,在不同...
Google提出的新型啟用函式 Swish
swish是google在10月16號提出的一種新型啟用函式,其原始公式為 f x x sigmod x 變形swish b啟用函式的公式則為f x x sigmod b x 其擁有不飽和,光滑,非單調性的特徵,而google在 中的多項測試表明swish以及swish b啟用函式的效能即佳,在不同...
什麼是啟用函式?常用的啟用函式
啟用函式是神經網路中的重要一環,也是神經網路之所以能叫 神經網路 的原因。初中應該就學過關於神經元的知識了。神經系統的結構和功能的基本單位是神經元,神經元的基本結構包括細胞體和突起兩部分神經元的功能是神經元接受刺激並能產生興奮 神經衝動 並能把興奮傳導到其它的神經元。也就是說其作用主要有三個 接受刺...