通過對之前課程的學習,我們已經能夠對於乙個輸入資料得出它的最終的乙個loss值,那麼下面就該咱們如何去找到乙個最優的引數矩陣,使得最終的loss值達到乙個最小的範圍。這就引入了咱們的最優化問題。下面咱們通過幾種解決方案來詳細討論如何處理這個最優化的問題
首先咱們就算不經過大腦思考也能得出一種方法,我把它叫做乙個簡單粗暴的想法就是咱們隨機的去找一組組的權重引數矩陣w,每一次咱們都通過整個計算流程得出這組權重計算出它的乙個loss值,就像上面的**的流程一樣,最後對比找到一組還算湊合的權重引數。這個方法咋樣呢?很蠢是吧,但是也是一種辦法。下面咱們就該進入思考就行改進了!
我在這裡先給大家做乙個比較形象的比喻,為了尋找最優的w引數矩陣,咱們就像蒙著眼鏡在乙個山坡上尋找山坡的最低點一樣,這個山坡咱們可以把它當成loss值的山峰,咱們的目的就是能夠找到乙個山峰的最低點也就是loss值最小的那個點。那麼咱們該怎麼走才能使得咱們朝著乙個loss值下降的方向呢?我們可以想象一下,咱們要找到山坡的最低點需要乙個方向,也就是說咱們首先需要得出乙個明確的方向,這個方向能夠使得咱們朝著山坡下面走去尋找最低點。那麼咱們該如何得出這個方向呢?
這就是咱們這節課的核心也就是最優化問題的解法,跟隨梯度去尋找山坡的最低點。梯度也就是山坡的乙個最陡峭的方向,我們沿著這個最陡峭的方向可以最快的走到山坡的最低點,這裡就引入了咱們這個梯度下降的問題,什麼叫梯度下降呢?它的意思簡單的說就是咱們不是已經找到最陡峭的方向了嘛,那麼咱們就沿著梯度的反方向去走,這就是梯度下降的直觀表達。之所以要反向就是由於咱們的梯度方向是使得loss值增加幅度最大的方向,所以咱們為了loss能減少就要朝著梯度下降的方向去尋找最小點。
咱們接下來要講的就是這個學習率了,咱們現在已經找到了乙個要往下走的方向了,就差乙個走的距離了。學習率就是咱們一次沿著這個梯度下降的方向走多遠,這個學習率可以說對於咱們整個最優化問題起著決定性的作用,因為如果學習率太大我們有可能有跳過最低點而學習率太小又會使得咱們整個網路收斂的太慢。所以設定學習率還是很有學問的,這裡咱們這是引入這個知識點,在之後的神經網路中咱們會再詳細討論學習率這個問題的!
深度學習入門課程學習筆記05 最優化問題
通過對之前課程的學習,我們已經能夠對於乙個輸入資料得出它的最終的乙個loss值,那麼下面就該咱們如何去找到乙個最優的引數矩陣,使得最終的loss值達到乙個最小的範圍。這就引入了咱們的最優化問題。下面咱們通過幾種解決方案來詳細討論如何處理這個最優化的問題 首先咱們就算不經過大腦思考也能得出一種方法,我...
深度學習 最優化的學習筆記
感謝蔡超老師的講授,給予了我很大的啟發 svm是我最初學習的分類器之一,svm線性分類器求解過程的推導還是十分優美的 使用了拉格朗日乘子法 具體的推導過程可以參考蔡超老師講授的ppt 這是因為在數值分析法求解的過程中,需要計算矩陣或者張量 在進行這個運算時,會涉及到所有的樣本值,而在目標檢測中,輸入...
深度學習 最優化隨記
計算流程圖中的方向叫前向傳播。通過反向傳播來優化權重。batchsize批處理的大小一般是2的整數倍 32,64,128 64和128居多。乙個epoch值表示迭代一輪全部資料。一次迭代表示跑完乙個batchsize資料。圖中的loss出現上下浮動是非常正常的。通常情況下需要看第1萬次,2萬次,3萬...