機器學習學習記錄（四）

本篇部落格將介紹深度學習時所用到的一些tips。

我們知道，機器學習的三大步驟（function set, goodness of function, pick up the best function）,那如果我們最終得到的結果壞掉了怎麼辦。如果壞掉了，到底是這三步的哪乙個步驟出現了問題呢？

結果的壞掉有兩種情況，一種是訓練資料的符合率很低，還有一種是測試資料的命中率比較低。在第一種情況下，很可能是在gradient descent的時候，由於某種原因而致使所得到的權重並不是l(

w1,w

1,⋯,

wn,b

) 最小值點，所以需要我們調整loss function或者是權重的初始值以及learning rate。那如果是測試資料的時候結果壞掉了呢？那基本上就可以確定是出現了過擬合的情況，所以可能需要我們重新調整模型，下面的這張圖很好地描述了這個過程。

下面介紹幾種比較常用的方法

i.對於訓練資料的時候出現問題的解決辦法：

對於某些機器學習問題，有時候會隨著網路深度的遞增而遞減。那為什麼會出現這種現象呢？解釋是：vanishing gradient. 在以sigmoid函式為啟用函式的神經網路中，由於sigmoid函式的影響導致網路中靠近input layer的引數偏導數很小，而靠近output layer的引數偏導數較大，這樣就導致靠近output layer的引數收斂得很快，而靠近input layer的引數直到學習結束都幾乎都沒有被更新。

那怎麼去解決這個問題呢？你當然可以採用乙個動態的learning rate去使不同引數盡量收斂，但是這種解決方案顯然只是治標不治本，因為導致這個問題的元凶在sigmoid函式。那我們能不能通過更換啟用函式來解決這個問題呢？答案是完全可行！事實上我們也是這麼做的。

下面介紹兩種比較常用的來更換sigmoid函式的啟用函式：

那這個函式怎麼求導呢？

根據上一次的weight與輸入我們是能夠求出每個神經元的具體輸出的，那麼就將輸出z1

=w1x

+b,z

2=w2

x+b 中較小的那乙個從神經網路中剔除，然後訓練這乙個更淺一點的神經網路，操作如下圖

這種方法有很多具體的實現方式，比較著名的有adagrad、rmsprop、momentum.

<1>adagrad:

adagrad的具體表達如下: wt

+1←w

t−η∑

ti=0

g2i−

−−−−

−√⋅g

i 其中g

i=∇l

<2>rmsprop wt

+1←w

t−ησ

t⋅gt

其中σt

=ασ2

t−1+

(1−α

)g2t

−−−−

−−√,

σ0=g

0,gt

=∇l

<3>momentum

不做過多解釋，請讀者參考下圖

ii.對於測試資料時出現問題的解決方法

解決方法主要有：early stopping，regularization，dropout

下面簡短地介紹一下regularization與dropout，early stopping比較簡單，請讀者查閱相關資料，不在這裡贅述

1.regularization

regularization其實就是要調整我們做梯度遞減的函式，在該函式後面加上λ|

θ|2 : l′

(θ)=

l(θ)

+λ|θ

|2用這個新的函式來做gradient descent： ∂l

′∂w=

∂l∂w

+λw

wt+1

←wt−

(η∂l

∂w)−

ηλwt

=(1−

ηλ)w

t−(η

∂l∂w

) 2.dropout

這種處理方式的做法是，每次引數更新，每個神經元有

p %的概率被隨機丟棄

最終得到的結果要用每個引數乘上1−

p %

機器學習學習記錄（四）

機器學習學習記錄六

機器學習實戰學習記錄

python學習記錄機器學習

機器學習 學習記錄（四）

機器學習 學習記錄六

機器學習實戰學習記錄

python學習記錄 機器學習

相關推薦

機器學習學習記錄（四）

機器學習學習記錄六

python學習記錄機器學習