異常檢測方法

2021-08-11 20:21:55 字數 987 閱讀 4701

異常檢測可謂是乙個博大精深的研究方向,在故障檢測、欺詐檢測、入侵檢測領域有著廣泛應用。本文只是結合各網路資源對其基礎進行簡單介紹,涉及到具體的領域和實際應用,還需進行深入研究和嘗試。

 正常狀態不能明確定義

 在某些領域正常和異常並沒有明確的界限

 資料本身存在雜訊,雜訊和異常難以區分

 正常行為並不是一成不變的,也會隨時時間演化

 標記資料獲取難,標記資料量少

異常檢測方法主要包括分類、聚類、統計分析、資訊熵、訊號分析;

訊號分析主要應用於聯絡時域訊號的異常檢測,常用的方法包括小波分析、譜分析,經常應用於震動訊號、音訊訊號的異常檢測。該方法屬於無監督方法,優點是不需要標記的樣本,面臨的問題是對於正常和異常的邊界難以明確定義。

資訊熵衡量分布無序程度的乙個很好的指標,當資訊熵越大,則表示分布越無序,許多研究人員應用資訊熵對網路流量異常進行檢測。該方法屬於無監督方法,優點是不需要標記的樣本,但是需要乙個嚴謹的資訊理論方法進行異常檢測。

聚類方法假設遠離正常樣本的資料為異常樣本(基於距離),稀疏的樣本為異常樣本(基於密度)。聚類方法可以分為非監督學習方法和半監督學習方法。非監督學習方法對樣本進行聚類,設定鄰域半徑,離樣本中心大於鄰域半徑的點認為是異常點。半監督學習方法運用正常樣本點進行建模,如果樣本點不屬於建模類別即為異常點。該方法的缺點是,計算密集,在正常樣本類別資料稀疏時並不適用。

分類方法通過對標記樣本建立分類模型進行異常檢測,分類方法分為監督和半監督方法。監督方法需要均衡的正常樣本和異常樣本,而且只能識別已知標記的種類,它的優點是識別的精度較高。半監督方法只需要標記的正常樣本,對正常樣本建立模型檢測與正常偏離的異常行為,缺點是對於未蒐集到的正常樣本會產生誤報。分類是機器學習研究的一大主題,包含不同種類不同適用場景的方法,後續再總結。

上述異常檢測方法只是乙個概述,具體方法在實踐中的選擇,資料的處理將通過案例的方式進行總結。

異常行為檢測方法

偏離訓練集統計分布的任何東西都被認為是異常。最簡單的統計學方法就是控制圖。計算出訓練集每個特性的平均和標準偏差,然後圍繞平均值定義出閾值 k 標準偏差 k為通常在1.5到3.0之間的任意係數,取決於既定的演算法保守程度 在部署中正向或負向超出閾值的點就是異常事件的可疑備選。這種方法很好理解,也便於實...

常用異常值檢測方法

方法 1 均方差 在統計學中,如果乙個資料分布近似正態,那麼大約 68 的資料值會在均值的乙個標準差範圍內,大約 95 會在兩個標準差範圍內,大約 99.7 會在三個標準差範圍內。方法 2 箱形圖 箱形圖是數字資料通過其四分位數形成的圖形化描述。這是一種非常簡單但有效的視覺化離群點的方法。考慮把上下...

異常檢測3 常見方法分類

基於線性分析 基於時空 基於相似性分析 基於偏差 高維方法 其他往往只對單獨緯度進行研究,使用上有很大的侷限性 對異常資料和正常資料進行不同的分布假設,並用em演算法擬合資料。侷限性在於假設往往和實際有較大出入,效果一般 在低緯度上分析資料間的相關性。比如pca,factor analysis等。但...