調整學習率learning rate
自適應學習率
adagrad演算法
一般梯度下降:
\[l=\sum_n(\tilde^n - (b+\sum w_ix_i^n))^2 \\
w^\gets w^t-\eta^tg^t\\
\eta^t=\frac}
\]adagrad:
\[w^\gets w^t-\fracg^t\\
g^t=\frac\\
\eta^t = \frac}\\
\sigma^t=\sqrt\sum^t_(g^i)^2}
\]化簡:
\[w^\gets w^t-\frac(g^i)^2}}g^t\\
\]隨機梯度下降 stochastic gradient descent
特徵縮放
泰勒展開式
如果\(h(x)在x=x_0\) 點的某個領域內有無限階導數,則有泰勒級數:
\[\begin
h(x)&=\sum^\infty_\frac(x-x_0)^k\\
&=h(x_0)+h'(x_0)(x-x_0)+\frac(x-x_0)^2+...
\end
\]二元泰勒:
\[h(x,y)=h(x_0,y_0)+\frac(x-x_0)+\frac(y-y_0)+...
\]梯度下降理論基礎
在小範圍的圓裡面找到最小值,然後不斷遞迴,直到找到全域性最小值。
基於泰勒展開式,化簡:
兩個向量內積如何最小,一定是反向180°即可。因此有:
最後有:
梯度下降法的侷限
李巨集毅機器學習 Introduction
人工智慧是我們想要達到的目標,即讓機器和人一樣智慧型。而機器學習是方法,讓機器從資料中學習,從而得到智慧型的方法。智慧型是什麼呢?對於人類智慧型而言,根據霍華德 加德納的多元智慧型理論,人類的智慧型分為以下七種智慧型 這不僅涵蓋了現在人工智慧的研究領域,計算機視覺 語音識別 自然語言處理等。而且也指...
李巨集毅機器學習課程筆記 3 梯度下降精講
梯度下降可以優化損失函式的值,使其盡量小,即可找到最好 在資料集上擬合效果最好 的模型引數。現在假設模型 f 中只有乙個引數 w 則損失函式為 l f l w 梯度下降演算法如下 若模型有多個引數,按相同方法更新各引數 初始化引數 隨機選取乙個 w 0 w 0 並不一定是隨機選取 令 w w 0 計...
李巨集毅機器學習attack model 學習筆記
loss函式及限制條件 無目標攻擊 l 負的 y 與y true 交叉熵 輸入的x 使y 與y true越遠越好 有目標攻擊 輸入的x 使y 與y true越遠越好且y 與y false越近越好 限制條件 x與x0距離需要小於乙個值,不被發現,否則攻擊就無意義 攻擊的目標是x在乙個小的變化內使模型失...