第09課 最常用的優化演算法 梯度下降法

2021-10-09 16:34:00 字數 670 閱讀 1898

在這裡,我們有必要從抽象角度,先好好解釋一下優化演算法。

在前面,我們講到,每乙個機器學習模型都有乙個目標函式,而學習的目標,就是最小化目標函式。

直觀而言,當我們已經獲得了乙個函式,最小化該函式其實就是,在其自變數取值範圍內,找到使得因變數最小的那個自變數取值點。

是不是所有函式都能夠在自變數取值範圍內找到因變數最小值呢?顯然不是。

比如,這個多項式函式:y=x,x 屬於實數——這樣的函式就沒有最小值。

因為,x 的取值範圍是整個實數域,x 越小 y 也就越小,x 取值可以無限小下去,一直到負無窮,y 同樣可以到負無窮。可惜負無窮並不是乙個數值,y 實際上是沒有最小值的。

根本連最小值都沒有的函式,我們可怎麼求它的最小值啊?!

別急,在我們學習本課的過程中,我們並不用擔心這個問題。因為我們要學習的幾個經典機器學習模型的目標函式都是凸函式,函式的凸性保證了其有最小值。

什麼叫做凸函式?這個有一套嚴格的數學定義:某個向量空間的凸子集(區間)上的實值函式,如果在其定義域上的任意兩點 ,有 f(tx + (1-t)y) <= tf(x) + (1

最常用的優化演算法 梯度下降法

從抽象角度,先好好解釋一下優化演算法 每乙個機器學習模型都有乙個目標函式,而學習的目標,就是最小化目標函式 直觀而言,當我們已經獲得了乙個函式,最小化該函式其實就是,在其自變數取值範圍內,找到使得因變數最小的那個自變數取值點。注意的訓練模型涉及兩個函式,乙個是模型函式 乙個是目標函式,這裡說的是目標...

基於梯度下降的優化演算法對比

主要介紹小批量梯度下降演算法 動量梯度下降演算法 rmsprop演算法 adam演算法,結論 這四種優化演算法預設選擇adam優化演算法。梯度下降演算法包含全批量梯度下降 小批量梯度下降 隨機梯度下降演算法。全批量梯度下降演算法每次訓練處理的是全部的資料集,當在訓練樣本數量龐大的時候,一次迭代耗時過...

第09課 揭開測試流水線的奧秘

在上面幾節課中,我們陸續介紹了微服務架構的主要測試型別。現在,讓我們再回顧一下它們的特點 總而言之,從上到下,測試的粒度由細到粗。一種測試的粒度越粗,涉及的部分就越多,也就越脆弱 容易誤報 執行和維護的成本就越高。接下來,我們就可以用 teamcity 或者 jenkins 這樣的排程工具,建立起乙...