1.梯度下降法的收斂性
針對迭代式演算法,我們就要convergency analysis(收斂性分析)
(1)什麼是平滑函式,非平滑函式?
平滑函式--在每個點上求出梯度
非平滑函式---在那個點上求不出梯度的,
l-lipschitz條件:是針對平滑函式的條件
logistic regression ,linear regression都是滿足l-lipschitz條件的
線性回歸和邏輯回歸都是凸函式
f(x*)是最終的收斂後的解,代表的最終想達到的最小值
我們的目標是通過學習的方式,使得f(xk)慢慢的接近f(x*),即
這一項如果隨著迭代次數的增加(梯度下降法),慢慢的變小,就等同於f(xk)慢慢的接近f(x*)。
如果這一項的變小的趨勢非常快,代表梯度下降法比較優質,而且很快可以收斂。
乙個好的演算法,在有限的最好的次數之內,可以看到a演算法,在20次迭代,f(xk)接近f(x*)的速度比較快。
ε表示k次迭代,真實的值與**值之間只存在ε的差距
推導過程:
2.凸函式的性質
3.l-lipschitz條件及定理
兩個定理:
4.收斂性推導
上面的f(xi+1)<=f(xi)表示的是:
梯度下降法每次的更新一定要比之前的好,這是標準意義上的梯度下降法,隨機梯度下降法不能保證每次的更新優於之前的。
梯度下降法推導總結
在傳統人工神經網路ann的訓練過程中,每次迭代的目的就是不斷地調整權值w1,w2,w3,wn,使訓練樣本經過神經網路的實際輸出值與目標輸出盡可能地接近。實際輸出和目標輸出之間的誤差度量通常採用如下平方誤差準則 注 word的向量表示式佔多了乙個空格的空間,如對排版不滿,請多多包涵 其中,d是訓練樣本...
感知機模型收斂性推導
證明的前提是訓練資料集線性可分。現在我們想證明感知機模型是會收斂的,也就是說錯誤訓練樣例的個數存在乙個上限。這個定理是novikoff在1962年時給予證明的,我閱讀其 和李航的統計學習方法之後自己進行了推導。首先,如果訓練資料集線性可分,那麼所有訓練資料點到分離超平面的距離存在乙個最短距離,我們記...
梯度下降法引數更新公式的推導
先來回顧一下梯度下降法的引數更新公式 其中,是學習速率,是梯度 這個公式是怎麼來的呢?下面進行推導 首先,如果乙個函式 n 階可導,那麼我們可以用多項式仿造乙個相似的函式,這就是泰勒展開式。其在a點處的表示式如下 可以看出,隨著式子的展開,這個展開式越來越接近於原函式。如果用一階泰勒展開式,得到的函...