不受限對抗樣本挑戰賽介紹

2021-09-11 09:25:05 字數 1468 閱讀 1199

文 / google brain 團隊研究工程師 tom b. brown 及 catherine olsson

今天,我們宣布將舉行不受限對抗樣本挑戰賽,該挑戰賽以社群為基礎,旨在激勵並衡量機器學習模型領域實現置信分類錯誤達零目標的進展情況。之前的研究重點集中在僅限對預先標記的資料點進行微小修改的對抗樣本(研究人員可以假定在施加微小干擾後,影象應該仍擁有同樣的標籤),而本挑戰賽允許使用不受限輸入,參賽者可以提交目標類中的任意影象,以便使用更廣泛的對抗樣本開發和測試模型。

對抗樣本的生成方式有很多,包括對輸入樣本的畫素進行微小修改,也可以使用空間轉換或簡單的猜測和驗證,以查詢分類錯誤的輸入樣本

參賽者可以從兩個角色中任選乙個提交參賽作品:作為防禦者提交難以被欺騙的分類器,或作為攻擊者提交意圖欺騙防禦者模型的任意輸入樣本。在挑戰賽前的 「熱身」 階段,我們將提供一系列固定攻擊,供參賽者設計防禦網路。在社群最終能夠擊敗那些固定攻擊之後,我們將發起全面的雙方挑戰,攻擊方和防禦方均設有獎品。

在本挑戰賽中,我們建立了乙個簡單的 「鳥或自行車」 分類任務,其中分類器必須回答以下問題:「這是一張含義清晰的鳥或自行車,還是 含義模糊/不明顯的?」 我們之所以選擇這項任務,是因為對於人類來說,區分鳥類和自行車非常容易,但是,所有已知的機器學習技術在面對敵手的情況下處理此類任務時卻顯得非常糾結。

防禦者的目標是為清潔的鳥類和自行車測試集正確加上標籤,並且保持高準確率,同時不會對任何攻擊者提供的鳥類或自行車影象產生任何置信錯誤。攻擊者的目標是找到防禦分類器信任地標記為自行車的鳥類影象(反之亦然)。我們希望盡量降低防禦者的挑戰難度,所以捨棄了所有含義模糊的影象(比如騎自行車的鳥)或不明顯的影象(比如公園的鳥瞰圖或不規則雜訊)。

含義模糊的影象和含義清晰的影象示例。防禦者不能在含義清晰的鳥類或自行車影象上犯任何置信錯誤。我們捨棄了人們會覺得含義模糊或不明顯的所有影象。所有影象均符合 cc 許可證 1、2、3、4

攻擊者完全可以提交任何鳥類或自行車影象,以試圖欺騙防禦分類器。例如,攻擊者可以拍攝鳥類**,使用 3d 渲染軟體,使用影象編輯軟體進行影象合成,使用生成模型或其他技術產生新奇的鳥類影象。

為了驗證攻擊者提供的新影象,我們會請一群人為影象新增標籤。此過程允許攻擊者提交任意影象,而不僅限於做了微小修改的測試集影象。如果防禦分類器明確將攻擊者提供的任何影象歸類為 「鳥」,而人類貼標者一致將其標記為自行車,則防禦模型被打破。您可以在我們的文章中了解有關挑戰賽結構的更多詳情(drive.google.com/file/d/1t0y…

如果您有興趣參與,可在 github 專案中找到入門指南。我們已發布了用於 「熱身」 的資料集、評估渠道以及基線攻擊,同時將隨時更新排行榜,發布社群的最佳防禦模型。我們期待您前來參賽! 注:github 專案 鏈結 github.com/google/unre…

不受限對抗樣本挑戰賽的組織團隊成員包括 tom brown、catherine olsson、nicholas carlini、chiyuan zhang、來自 google 的 ian goodfellow 以及來自 openai 的 paul christiano。

NLP中的對抗樣本

自然語言處理方面的研究在近幾年取得了驚人的進步,深度神經網路模型已經取代了許多傳統的方法。但是,當前提出的許多自然語言處理模型並不能夠反映文字的多樣特徵。因此,許多研究者認為應該開闢新的研究方法,特別是利用近幾年較為流行的對抗樣本生成和防禦的相關研究方法。使用對抗樣本生成和防禦的自然語言處理研究可以...

HGD處理對抗樣本以防禦對抗攻擊

防禦效果 2018cvpr defense against adversarial attacks using high level representation guided denoiser.對抗樣本通過向原始影象新增雜訊來構造,使得輸入模型後分類錯誤。如果在對抗樣本輸入模型之前,進行去噪處理,...

對抗樣本文章筆記(二)

生 類完全無法識別,但dnn可以給出明確分類的影象。進化演算法 ea 選擇一張,進行隨機變異,若對某類的置信度高於擁有當前該類最高置信度的,就將新生成的替代當前最優。通過不斷地對新增干擾 選擇分類效果更好的來得到優勢,過程類似於生物進化時的突變 自然選擇。兩種編碼方式 間接編碼 通過cppn生成規則...