深度學習異常檢測 深度few shot異常檢測

2021-10-18 04:46:42 字數 2424 閱讀 4315

入門, 利用一些標記的異常例項執行異常通知的異常檢測

由於缺乏大規模的標記異常資料,現有的(深度或淺度)異常檢測方法通常被設計為無監督學習(針對完全未標記的資料進行訓練)或半監督學習(針對僅標記的正常資料進行訓練)。結果,當在許多現實世界中的異常檢測應用中可獲得這樣的資訊時,他們難以利用先驗知識(例如,一些標記的異常)。這些有限的標記異常可能源自已部署的檢測系統,例如一些成功檢測到的網路入侵記錄,也可能源自使用者,例如由客戶報告並經銀行確認的少量欺詐性信用卡交易。由於假設在訓練期間只有few-shot的標記異常可用,因此該研究領域中的方法可以歸類為"few-shot異常檢測"。但是,它們與一般的一次性學習也有一些根本的區別。我將在最後討論更多有關差異的內容。在這篇文章中,我將分享我們在利用深度學習技術來解決這個問題方面的一些令人振奮的工作。

給定一組較大的正常(或未標記)訓練資料和非常有限數量的標記異常資料,我們旨在適當利用那些較小的標記異常資料和較大的正常/未標記資料來學習異常檢測模型。

repen [1]可能是第一種深度異常檢測方法,旨在利用few-shot標記異常來學習異常通知檢測模型。repen中的關鍵思想是學習特徵表示,以便在隨機資料子樣本中異常具有比正常資料例項更大的最近鄰居距離。如[2,3]所示,此隨機最近鄰居距離是最有效和高效的異常度量之一。repen旨在學習針對此最新異常度量量身定製的特徵表示。repen的框架如下所示。

與隨機資料子集x_i,…,x_ 中的正常例項x +相比,repen被強制學習到更大的異常x-最近鄰居距離。總體目標為

其中q是從未標記/正常訓練資料中取樣的隨機資料子集,f是啟用了神經網路的特徵學習函式,nn_dist返回資料子集q中x的最近鄰居距離。

正如您在上面看到的,當大型訓練資料僅包含正常資料或完全未標記的資料時,repen可以工作。在後一種情況下,我們也沒有標記的異常資料,repen使用一些現有的異常檢測器來生成一些偽標記的異常資料。因此,repen也可以在完全不受監督的環境中工作。

儘管標記的異常資料是有限的,但與非監督版本相比,repen可以實現非常出色的準確性。一些令人印象深刻的結果可以在下面找到。隨著標記異常的數量從1增加到80,auc效能迅速提高。

repen的源**發布於

與專注於基於距離的異常度量的特徵表示學習的repen不同,devnet [4]偏差網路旨在利用有限的標記異常資料執行端到端異常評分學習。關鍵區別可以在下圖中看到,其中前者優化表示,而後者優化異常評分。

具體來說,如以下框架所示,給定一組訓練資料例項,所提出的框架首先使用神經異常分數學習器為其分配異常分數,然後根據以下資訊定義一些正常資料例項的異常分數的平均值用作參考分數的先驗概率,以指導後續的異常分數學習。最後,框架定義了乙個損失函式,稱為偏差損失,以強制統計異常值與上尾的正常資料物件的統計值之間的顯著偏差。在devnet的實現中,高斯先驗演算法用於使用基於z分數的偏差損失對異常分數進行直接優化。

devnet的損失函式如下

其中dev是基於z分數的偏差函式,定義為

其中phi是基於神經網路的對映函式,可將輸入x投影到標量輸出,mu和sigma是從高斯先驗中得出的。這種損失使devnet可以將正常例項的異常分數盡可能地靠近mu,同時在mu和異常分數之間強制至少a的偏差。

devnet在各種現實資料集中進行了評估。一些結果如下。devnet與幾種最先進的競爭方法(包括repen,深層一分類器,few-shot分類器和無監督方法iforest)相比,顯著提高了效能。更有趣的結果可以在[4]中找到。

devnet和資料集的源**發布於

在few-shot異常檢測中,有限的異常示例可能來自不同的異常類別,因此表現出完全不同的流形/類別特徵。這與一般的一次性學習(主要是分類任務)有根本的區別,後者的有限示例是特定於類的,並假定共享相同的流形/類結構。因此,在幾次異常檢測中,必須謹慎處理來自某些新型異常類的未知異常。設計了兩件作品[5,6]來解決這個問題。稍後我將討論這兩項研究。

除了上面介紹的兩種方法外,還有其他幾篇**討論了相同的問題。有關詳細資訊,請參見調查報告[7]。

深度學習異常檢測

有label的資料 確定乙個信心分數閾值,classifier得出的信心分數大於閾值,才表明是正常資料 如何確定信心分數閾值 先定義乙個cost table,表明false alarm和missing的得分,根據cost table計算特定閾值的得分,使用得分最高者閾值 無label的資料 方法1 ...

深度學習目標檢測

流程狂徒如下 1 使用selective search提取proposes,然後利用cnn等識別技術進行分類。2 使用識別庫進行預訓練,而後用檢測庫調優引數。3 使用svm代替了cnn網路中最後的softmax,同時用cnn輸出的4096維向量進行bounding box回歸。4 流程前兩個步驟 候...

雙目攝像機測深度原理

分類專欄 原理解析 雙目測距 雙目攝像機是採用兩個攝像機同時執行來感知周圍的環境,雙目攝像機組成的視覺系統的優勢顯而易見,雙目系統相比於單目系統可提取到更多與真實世界環境有關的資訊,尤其是目標實物的深度資訊。雙目視覺系統甚至還可以在攝像機校準不精確的情況下正常還原觀測點的深度,將人為造成的誤差降到最...