Swish Mish 啟用函式 理解

2021-10-10 21:58:58 字數 950 閱讀 2590

啟用函式鼻祖sigmoid雖然現在感覺相當lj,但它的非線性表達能力其實很好,求導性質也不錯(e

xe^x

ex求導仍是自己),最大的問題是飽和導致的梯度瀰散。而之後流行的relu啟用函式,避免了飽和問題,但非線性表達能力其實很弱,因此需要堆疊多層網路,而且求導性質也不好(y=x

y=xy=

x二次求導後變為0了)。

swish是谷歌在17年提出的乙個啟用函式,形式非常簡單,幾乎就是sigmoid和relu的拼湊,具備無上界有下界、平滑、非單調的特性,效能在總體上優於relu。

既然relu和sigmoid能發生故事,那咱這小腦袋瓜一機靈,自然會想到sigmoid的閨蜜tanh,想法子把relu和tanh也湊合湊合?呸!relu這個渣男……

然後就有了他倆的結晶:mishmis

emmm,這相似程度,不虧是閨蜜。

測試效果mish更好,mish也成為yolov4骨幹網路的啟用函式,不過被很快出現的yolov5棄用了。

哼,渣男和閨蜜不會有好下場的。

機器學習 啟用函式理解

作用 tf呼叫 公式影象 導數優點 缺點sigmoid 梯度反向傳遞時導致梯度 和梯度消失 其中梯度 發生的概率非常小 而梯度消失發生的概率比較大。sigmoid輸出永遠是正數 非零中心 tanh 輸出 1,1 沒有解決 梯度消失問題 relu 不會有梯度消失問題 輸入負數,則完全不啟用,relu函...

常用啟用函式(激勵函式)理解與總結

學習神經網路的時候我們總是聽到啟用函式這個詞,而且很多資料都會提到常用的啟用函式,比如sigmoid函式 tanh函式 relu函式。那麼我們就來詳細了解下啟用函式方方面面的知識。本文的內容包括幾個部分 什麼是啟用函式?啟用函式的用途 為什麼需要啟用函式 有哪些啟用函式,都有什麼性質和特點?應用中如...

常用啟用函式(激勵函式)理解與總結

學習神經網路的時候我們總是聽到啟用函式這個詞,而且很多資料都會提到常用的啟用函式,比如sigmoid函式 tanh函式 relu函式。那麼我們就來詳細了解下啟用函式方方面面的知識。本文的內容包括幾個部分 什麼是啟用函式?啟用函式的用途 為什麼需要啟用函式 有哪些啟用函式,都有什麼性質和特點?應用中如...