防禦效果
** 2018cvpr-defense against adversarial attacks using high-level representation guided denoiser.
對抗樣本通過向原始影象新增雜訊來構造,使得輸入模型後分類錯誤。如果在對抗樣本輸入模型之前,進行去噪處理,將攻擊者千方百計新增到原始影象上的輕微干擾去除,則可以得到與原始影象近似的去噪後影象,從而分類依舊正確。
之前提出畫素導向去噪器pgd(pixel guided denoiser),令x
xx表示原始的乾淨影象,x
∗x^*
x∗表示對抗樣本,x′x'
x′表示去噪後的影象。將損失函式定義為l=∣
∣x−x
′∣∣l=||x-x'||
l=∣∣x−
x′∣∣
,表示去噪後的影象與原始影象之間的差異。其中,∣∣.
∣∣||.||
∣∣.∣
∣表示l
1l_1
l1範數。由於該損失函式是定義在影象畫素級別上的,因此命名為畫素導向去噪器。
然而pgd有乙個致命缺陷。去噪是相對性的,並不是絕對的,無論去噪過程多完善,總會存在殘餘的雜訊在影象上。而在dnn中,存在誤差放大效應。即殘餘的對抗雜訊在一層層中會被放大,使得最後的輸出存在的雜訊仍足以使dnn分類錯誤。
因此,作者提出了hgd高階表示指導去噪器(high-level representation guided denoiser)。
由於dnn存在誤差放大效應,故將損失函式定義在輸出層上。
令y
yy表示原始的乾淨影象通過dnn後的輸出,y
∗y^*
y∗表示對抗樣本的輸出,y′y'
y′表示去噪後的影象的輸出。將損失函式定義為l=∣
∣y−y
′∣∣l=||y-y'||
l=∣∣y−
y′∣∣
,表示去噪後的影象與原始影象的對應輸出之間的差異。hgd的目標是,追求損失函式的最小化。損失函式越小,說明去噪後影象與原影象的輸出差異越小,越接近初始影象,去噪效果越好。
根據選擇的網路層 l
ll 的不同,提出了兩種hgd。
針對l
0l_0
l0以及l
2l_2
l2攻擊的防禦效果不佳。原因在於這兩類攻擊限制了修改畫素的數量,在修改程度上限制比較少,個別畫素的被擾動程度可能過大,去噪效果不明顯。該防禦方法適用於l
∞l_\infty
l∞攻擊。
NLP中的對抗樣本
自然語言處理方面的研究在近幾年取得了驚人的進步,深度神經網路模型已經取代了許多傳統的方法。但是,當前提出的許多自然語言處理模型並不能夠反映文字的多樣特徵。因此,許多研究者認為應該開闢新的研究方法,特別是利用近幾年較為流行的對抗樣本生成和防禦的相關研究方法。使用對抗樣本生成和防禦的自然語言處理研究可以...
對抗樣本文章筆記(二)
生 類完全無法識別,但dnn可以給出明確分類的影象。進化演算法 ea 選擇一張,進行隨機變異,若對某類的置信度高於擁有當前該類最高置信度的,就將新生成的替代當前最優。通過不斷地對新增干擾 選擇分類效果更好的來得到優勢,過程類似於生物進化時的突變 自然選擇。兩種編碼方式 間接編碼 通過cppn生成規則...
chapter 16 對抗樣本和對抗訓練
對抗樣本即是被用心構造出來,利用演算法的漏洞來被錯誤分類的樣本。舉個例子,前段時間有人發現,只要手持一類,監控裝置就無法將你識別為人類。前面的課程也有例子,一幅大象的,只要加上微不足道的噪點,演算法就會將它識別為別的東西。下面是另乙個例子 左右兩個熊貓在人眼看來毫無區別,但在左圖加上乙個精心構造的縮...