機器學習中的常見問題 幾種梯度下降法

2021-08-20 01:25:35 字數 1142 閱讀 1386

機器學習中的常見問題——幾種梯度下降法

在機器學習演算法中,對於很多監督學習模型,需要對原始的模型構建損失函式

l,接下來便是通過優化演算法對損失函式

l進行優化,以便尋找到最優的引數

θ。在求解機器學習引數

θ的優化演算法中,使用較多的是基於梯度下降的優化演算法(gradient descent, gd)。

梯度下降法有很多優點,其中,在梯度下降法的求解過程中,只需求解損失函式的一階導數,計算的代價比較小,這使得梯度下降法能在很多大規模資料集上得到應用。梯度下降法的含義是通過當前點的梯度方向尋找到新的迭代點。

在具體使用梯度下降法的過程中,主要有以下幾種不同的變種,即:batch、mini-batch、sgd和online。其主要區別是不同的變形在訓練資料的選擇上。

批梯度下降法(batch gradient descent)針對的是整個資料集,通過對所有的樣本的計算來求解梯度的方向。

批梯度下降法的損失函式為:j(

θ)=1

2m∑i

=1m(

hθ(x

(i))

−y(i

))2針對上述的損失函式,在批梯度的優化過程中,對每乙個樣本都需要計算其梯度,批梯度的優化過程為:re

peat

e在上述的批梯度的方式中每次迭代都要使用到所有的樣本,對於資料量特別大的情況,如大規模的機器學習應用,每次迭代求解所有樣本需要花費大量的計算成本。是否可以在每次的迭代過程中利用部分樣本代替所有的樣本呢?基於這樣的思想,便出現了mini-batch的概念。

假設訓練集中的樣本的個數為

n,則每個mini-batch只是其乙個子集,假設,每個mini-batch中含有

b個樣本,這樣,整個訓練資料集可以分為n/

b個mini-batch。fo

r(k=

1,2...m/

b)隨機梯度下降演算法(stochastic gradient descent)可以看成是mini-batch gradient descent的乙個特殊的情形,即在隨機梯度下降法中每次僅根據乙個樣本對模型中的引數進行調整,等價於上述的b=1情況下的mini-batch gradient descent,即每個mini-batch中只有乙個訓練樣本。

隨機梯度下降法的優化過程為:

機器學習中的常見問題——幾種梯度下降法

機器學習中常見問題 幾種梯度下降法

在機器學習演算法中,對於很多監督學習模型,需要對原始的模型構建損失函式,接下來便是通過優化演算法對損失函式進行優化,以便尋找到最優的引數。在求解機器學習引數的優化演算法中,使用較多的是基於梯度下降的優化演算法 gradient descent,gd 梯度下降法有很多優點,其中,在梯度下降法的求解過程...

機器學習常見問題整理?

答 理解實際問題,抽象成數學模型 分類 回歸 聚類 獲取資料 特徵預處理與特徵選擇 訓練模型與調優 模型診斷 過擬合 欠擬合等 模型融合 上線執行。答 監督學習 非監督學習 半監督學習 強化學習。答 兩者達到的效果是一樣的,都是試圖去減少特徵資料集中的屬性 特徵 的數目 但是兩者所採用的方式方法卻不...

機器學習 面試常見問題 答案

缺點 tanh 缺點 relu 缺點 leakly relu 缺點 優點 相對於leaky relu來說,啟用值更平滑 缺點 其他的leaky relu的缺點一併繼承下來了。如何選擇啟用函式?如何初始化cnn?理論 如何初始化cnn?實踐 如何分析初始化引數結果好壞?比較好的初始化結果 什麼叫梯度消...