在生成對抗樣本這個應用場景下,對抗樣本的最優境界是足以迷惑模型,對人眼卻沒有產生可視的變化。這意味著樣本需要在原樣本的l_2或者l_inf球內產生。這時,使用pgd會帶來兩點不足
一、pgd方法本身最適用於凸集,凸集中只有唯一的本地最優,也即為全域性最優,那麼本地最優的問題就得以避免。然而,目前觀察表明樣本空間對於坡度來說並不是凸集,存在多個本地最優,那麼遇到非全域性最優的本地優化就是難免的
二、除此之外,另有一種小概率情況會帶來較差的結果。如果通往乙個本地最優點的gradient通道在球內,然而這個本地最優點本身卻在球外,那麼pgd會在半坡上遇到邊界,從而連本地最優也無法達到
**這兩點意味著pgd的執行結果是較不穩定的,需要多次隨機初始化,取最優的一次作為最終輸出,而現實中也確實是這樣做的。**在mnist challenge的榜上,排名很高的pgd使用了50次隨機初始化,並且發布pgd攻擊的**裡似乎也是直接將多次隨機初始化的過程作為pgd攻擊演算法必要的一部分,沒有隨機初始化的版本叫做basic iterative method attack, bim。這對pgd的最終效能並沒有影響,但是所需的多次初始化對於訓練時間而言顯然是不利的。
關於梯度下降
關於何為梯度下降 批量梯度下降 bgd 用所有資料計算梯度 隨機梯度下降 sgd 用單個資料計算梯度 小批量梯度下降 mbgd 用小部分資料計算梯度 動量梯度下降 momentum 通過結合之前的梯度動量來計算當前的梯度動量,其計算公式的實質為為前n個梯度向量的平均。常用公式如圖,其中 指代平均前1...
關於梯度下降
什麼是梯度下降 簡單地來說,多元函式的導數 derivative 就是梯度 gradient 分別對每個變數進行微分,然後用逗號分割開,梯度是用括號包括起來,說明梯度其實乙個向量,我們說損失函式l的梯度為 我們知道導數就是變化率。梯度是向量,和引數維度一樣。總結梯度下降這一目前機器學習 深度學習解決...
關於梯度下降的簡要概述
這裡寫的是最小二乘的線性回歸方法,用梯度下降來調整引數。首先我們看一些符號 m 樣本數量 n 引數個數 xi 第i個樣本的特徵 feature 向量 xji 第i個樣本的第j個特徵 y 樣本真實值,是乙個向量 引數向量 或者你直接理解成陣列可能比較好理解,程式中以alpha命名 步長 學習率,程式中...