NLP複習 常用啟用函式的比較

2021-10-07 07:27:14 字數 320 閱讀 5574

sigmoid的導數的影象:

缺點:x較大時,導數接近0,導致引數長時間得不到更新。因此除了輸出層是乙個二分類問題,其他基本不用它。

pytorch:torch.sigmoid()

tanh導數影象:

優缺點:解決了sigmoid函式的不是zero-centered輸出問題(y軸方向均值為0),然而仍有梯度消失(gradient vanishing)的問題和冪運算耗時的問題。

pytorch:torch.tanh()

relu導數影象

relu優點:

relu缺點:

【參考資料】

常用啟用函式的總結與比較

本文為 cs231n 中關於啟用函式部分的筆記。啟用函式 activation function 能夠把輸入的特徵保留並對映下來。sigmoid 非線性函式將輸入對映到 0,1 0,1 之間。它的數學公式為 x 11 e x x 11 e x 歷史上,sigmoid 函式曾非常常用,然而現在它已經不...

NLP中啟用函式的理解

1 啟用函式將線性變換轉變成非線性。y xw b y sigma xw b y xw b xw bxw b xw b 是在x基礎上做的線性變換 仿射變換 總體來說做的平移 旋轉和縮放,加入啟用函式後,原來的變換是非線性的。上式也可以理解為,在x xx基礎上先過mlp,再加啟用函式。在實際訓練中,發現...

啟用函式的比較

在深度網路中啟用函式的作用 引入非線性。提公升網路的表達能力 啟用函式的對比 sigmoid sigmoid的計算量大 相比relu 反向傳播容易出現梯度消失,輸出均大於0,使得輸出均值不為0,出現偏移現象。tanh 雙曲正切計算量更大,依然有軟飽和性 relu 收斂速度比sigmoid和tanh快...