啟用函式介紹

2021-08-21 08:24:15 字數 2324 閱讀 6574

relu對比sigmoid主要變化:

1.單側抑制

2.相對寬闊的興奮邊界

3.稀疏啟用性

(1) sigmoid函式(曲線很像「s」型)

公式:

曲線:

也叫 logistic 函式,用於隱層神經元輸出

取值範圍為(0,1)

它可以將乙個實數對映到(0,1)的區間,可以用來做二分類。(它不像svm直接給出乙個分類的結果,logistic regression給出的是這個樣本屬於正類或者負類的可能性是多少,當然在多分類的系統中給出的是屬於不同類別的可能性,進而通過可能性來分類。)

在特徵相差比較複雜或是相差不是特別大時效果比較好。

sigmoid缺點:

啟用函式計算量大,反向傳播求誤差梯度時,求導涉及除法

反向傳播時,很容易就會出現梯度消失的情況,從而無法完成深層網路的訓練(sigmoid的飽和性)

下面解釋為何會出現梯度消失:

反向傳播演算法中,要對啟用函式求導,sigmoid 的導數表示式為:

sigmoid 原函式及導數圖形如下:

從上圖可以看到,其兩側導數逐漸趨近於0

具有這種性質的稱為軟飽和啟用函式。具體的,飽和又可分為左飽和與右飽和。與軟飽和對應的是硬飽和, 即

sigmoid 的軟飽和性,使得深度神經網路在二三十年裡一直難以有效的訓練,是阻礙神經網路發展的重要原因。具體來說,由於在後向傳遞過程中,sigmoid向下傳導的梯度包含了乙個 因子(sigmoid關於輸入的導數),因此一旦輸入落入飽和區,的導數就會變得接近於0,導致了向底層傳遞的梯度也變得非常小。此時,網路引數很難得到有效訓練。這種現象被稱為梯度消失。一般來說, sigmoid 網路在 5 層之內就會產生梯度消失現象

此外,sigmoid函式的輸出均大於0,使得輸出不是0均值,這稱為偏移現象,這會導致後一層的神經元將得到上一層輸出的非0均值的訊號作為輸入。

(2) tanh函式

公式

其中sinh(x)數學公式為:

其中cosh(x)數學公式為:

rectified linear unit(relu) - 用於隱層神經元輸出

公式曲線

輸入訊號 <0 時,輸出都是0,>0 的情況下,輸出等於輸入

relu 的優點:

發現使用 relu 得到的 sgd 的收斂速度會比 sigmoid/tanh 快很多。除此之外,當x<0時,relu硬飽和,而當x>0時,則不存在飽和問題。所以,relu 能夠在x>0時保持梯度不衰減,從而緩解梯度消失問題。這讓我們能夠直接以監督的方式訓練深度神經網路,而無需依賴無監督的逐層預訓練。

relu 的缺點:

隨著訓練的推進,部分輸入會落入硬飽和區,導致對應權重無法更新。這種現象被稱為「神經元死亡」。與sigmoid類似,relu的輸出均值也大於0,偏移現象和 神經元死亡會共同影響網路的收斂性。

(4) softmax函式

softmax - 用於多分類神經網路輸出

公式

舉個例子來看公式的意思:

就是如果某乙個 zj 大過其他 z, 那這個對映的分量就逼近於 1,其他就逼近於 0,主要應用就是多分類。

為什麼要取指數,第乙個原因是要模擬 max 的行為,所以要讓大的更大。

第二個原因是需要乙個可導的函式。

1 3 3 啟用函式介紹

到目前為止,我們使用的啟用函式全部都是 函式,然而這並不一定是最好的函式,有時其他可選的函式效果也很好,下面我們來介紹一下其他的函式。如圖所示,我們在這裡使用 函式作為啟用函式。我們現在使用g z x 作為更一般的可以使用的函式。我們這裡介紹一下tanhx,是雙曲正切函式。tanhx,實際上在數學上...

常用啟用函式介紹

sigmod函式 函式公式和圖表如下圖 sigmod函式公式 sigmod函式圖 在sigmod函式中我們可以看到,其輸出是在 0,1 這個開區間內,這點很有意思,可以聯想到概率,但是嚴格意義上講,不要當成概率。sigmod函式曾經是比較流行的,它可以想象成乙個神經元的放電率,在中間斜率比較大的地方...

幾種非線性啟用函式介紹

神經網路中,正向計算時,激勵函式對輸入資料進行調整,反向梯度損失。梯度消失需要很多方式去進行規避。表示式為 y x s igmo id x 11 e x y x in 0,1 y x sigmoid x 11 e x,y x in 0,1 y x sigmoid x 11 e x,y x in 0,...