2 梯度下降 gradient decent

2021-10-24 09:14:01 字數 1057 閱讀 2918

可參考文章:

1.learning rate

learning rate

learning rate

2.自適應的learning rate

自適應調整的目標是:模型訓練的初始階段,

adagrad: 就是一種可以實現自適應調整學習速率的演算法,其公式如下:

adagrad的思想如下:

與gradient decent 不同的時,adagrad將梯度前所乘的引數換成了乙個 分子/分母 的結構。即學習速率

3.特徵歸一化處理:

實際資料中,每個特徵的分布不同,如上左圖。特徵分布不同,對y的影響則不同。比如x1的取值是1,2,3···,x2的取值是100,200,300···,那乘以權重引數w後,x2波動對y造成的影響遠大於x1波動對y造成的影響。如上右圖,未做歸一化的loss和引數的等高線是橢圓的,很難直接沿著某個方向達到最小值。而歸一化後,等高線是類似圓形,無論從哪個方向開始,沿著乙個方向很容易到達圓心,即loss的最小值。

4.梯度下降work的數學理論基礎。

梯度下降work的背後數學理論是泰勒展開式,此處不贅述,,因為還沒有太懂。。

1.梯度下降的大家族有哪些?

bgd ( batch gredient decent) : 每次取所有的訓練樣本來更新引數。自然訓練速度比較慢。

sgd (stochastic gredient decent): 每次只隨機選取乙個樣本來更新引數。這是另外乙個極端,雖然引數更新速度變快,但是得到結果不一定是最優解。

mbgd : mini-batch gredient decent: 折中了上述兩種極端的方式,每次隨機的選取一小批資料來訓練,更新引數。

2.梯度下降如何避免卡在區域性最小值?

線性回歸 2 梯度下降

考慮下面的訓練樣本 我們希望通過房屋面積和臥室數量估計房屋 這在裡,輸入 x 是乙個2維的向量。並且我們用x i 1表示訓練集中第 i 個樣本的第乙個特徵 這裡是居住面積 用x i 2表示第 i 個樣本的臥室數。首先我們假設y關 於x的線 性函式為 h x 0 1 x1 2x2。為了方便,我們令x0...

090001 梯度下降

本講ng大牛講解了梯度下降 gradient descent 方法 首先以波特蘭奧勒岡的房屋面積和售價關係為例,講解了監督學習的一般模式,通過乙個訓練集,利用學習演算法,得到乙個假設 歷史原因造成的叫法,就是乙個 模型 當輸入值x進入,通過假設,得到乙個 值y,如圖所示 當只有乙個變數即面積時,其關...

二 梯度下降

第二講正式開始介紹機器學習中的監督學習,首先宣告了以下約定 對於m組訓練樣本,x表示其輸入 input feature y表示其輸出 target variable m是乙個正整數 表示個數的嘛 x和y可是是向量也可以是標量,不過入門而言一般y為標量,x i y i 表示訓練樣本,表示訓練集 我們的...