本次介紹prelu啟用函式,方法來自於何凱明***** 《delving deep into rectifiers:surpassing human-level performance on imagenet classification》.
prelu(parametric rectified linear unit), 顧名思義:帶引數的relu。二者的定義和區別如下圖:
如果ai=0,那麼prelu退化為relu;如果ai是乙個很小的固定值(如ai=0.01),則prelu退化為leaky relu(lrelu)。 有實驗證明,與relu相比,lrelu對最終的結果幾乎沒什麼影響。
(1) prelu只增加了極少量的引數,也就意味著網路的計算量以及過擬合的危險性都只增加了一點點。特別的,當不同channels使用相同的ai時,引數就更少了。
(2) bp更新ai時,採用的是帶動量的更新方式,如下圖:
上式的兩個係數分別是動量和學習率。
需要特別注意的是:更新ai時不施加權重衰減(l2正則化),因為這會把ai很大程度上push到0。事實上,即使不加正則化,試驗中ai也很少有超過1的。
(3) 整個**,ai被初始化為0.25。
深度學習 啟用函式
如下圖,在神經元中,輸入的 inputs 通過加權,求和後,還被作用了乙個函式,這個函式就是啟用函式 activation function。啟用函式的這些特性可以很好地解釋我們為什麼要用啟用函式。函式公式和圖表如下圖 在sigmod函式中我們可以看到,其輸出是在 0,1 這個開區間內,這點很有意思...
深度學習 啟用函式
主要作用 加入非線性因素,彌補線性模型表達不足的缺陷 sigmoid函式 隨著 x xx 的趨近正 負無窮,y yy 對應的值越來越接近 1 1,趨近飽和 因此當 x xx 100 和 x xx 1000 的差別不大,這個特性丟掉了 x xx 1000 的資訊 tanh函式 對sigmoid函式的值...
深度學習 啟用函式
啟用函式又稱 非線性對映函式 是深度卷積神經網路中不可或缺的模組。可以說,深度網路模型強大的表示能力大部分便是由啟用函式的非線性單元帶來的。這部分共介紹7個啟用函式 sigmoid函式,tanh函式,relu函式,leaky relu函式,引數化relu,隨機化relu和指數化線性單元 elu si...