孤立點分析常用方法

2021-06-07 16:15:59 字數 1592 閱讀 9470

孤立點是指資料集中那些小模式資料,它可能是度量或執行錯誤所導致的, 也可能是固有資料變異性的結果。hawkins給出了其本質性定義: 孤立點是在資料集中與眾不同的資料, 使人懷疑這些資料並非隨機偏差, 而是產生於完全不同的機制。一般的孤立點挖掘中存在兩個基本任務:一是在給定的資料集合中定義什麼樣的資料可以被認為不一致的; 二是找到乙個有效的方法來挖掘這樣的孤立點。

傳統的孤立點挖掘演算法

目前已有的傳統的孤立點挖掘演算法主要包括四類演算法基於統計的方法,基於距離的方法,基於密度的方法,基於偏離的方法和基於聚類的挖掘演算法。

基於統計的方法:

基於統計的演算法基本思想是根據資料集的特性事先假定乙個資料分布的概率模型,然後根據模型的不一致性來確定異常。存在的問題是, 在許多情況下, 我們並不知道資料的分布, 而且現實資料也往往不符合任何一種理想狀態的數學分布,這樣就對後期的孤立點發掘產生了很大的困難。另一方面基於統計的方法比較適合於低維空間的孤立點挖掘,而實際的資料大多都是高維空間的資料,在這種情況下,事先估算資料的分布是很困難的.

基於距離的方法:

基於距離的演算法的基本思想是以距離的大小來檢測小模式,孤立點被認為是沒有足夠多的鄰居。它可以描述為在資料物件集合中n中,至少有p個物件和物件o的距離大於d, 則物件o是乙個帶引數p和d的基於距離的異常點。基於距離的檢測方法的優勢在於他不需要事先了解資料集本身的特性,是與領域無關的,但是問題在於對引數p和d估計的困難性。不同的p和d引數的確定會對結果帶來很大的影響。由於基於距離的方法的引數p和d是一定的所以發現的孤立點是全域性孤立點。

基於密度的方法:

基於距離的方法對全域性各個聚類的資料提出了統一的p和d的引數,但是如果各個聚類本身的密度存在不同,則基於距離的方法則出出現問題,因此提出了基於密度模型的區域性異常點挖掘演算法,通過區域性異常點因子lof的計算來確定異常點, 只要乙個物件的lof遠大於1, 它可能就是乙個異常點。簇內靠近核心點的物件的lof接近於1,處於簇的邊緣或是簇的外面的物件的lof相對較大,這樣便能檢測到區域性異常點,更貼近於實際的資料集的特性。這種傳統的區域性異常點的挖掘演算法的主要問題在於區域性範圍的引數minpts值存在選擇上的困難,可以運用多粒度偏差因子代替minpts來評價,這樣便能得到比較好的解決方案。

基於偏離的方法:

基於偏差的方法的基本思想是通過檢查一組物件的主要特徵來確定異常點, 如果乙個物件的特徵與給定的」描述」過分」偏離」 , 則該物件被認為是異常點。現有的基於偏離的方法主要有序列異常技術和olap 資料立方體方法。前者是以樣本集的總體的方差為相異度函式,描述了樣本集的基本特徵,所有背離這些特徵的樣本都是異常樣本,這種方法在對異常存在的假設太過理想化, 對現實複雜資料效果不太好。而後者利用在大規模的多維資料中採用資料立方體確定反常區域,如果乙個立方體的單元值顯著地不同於根據統計模型得到的期望值,該單元值被認為是乙個孤立點,當存在許多涉及多層概念層次的維時, 人工探測變得非常困難。

基於聚類的方法:

基於聚類的方法的基本思想是將孤立點挖掘的過程轉換成聚類的過程。首先將資料集利用已經成熟的模型進行聚類分析,是資料集形成簇,而那些不在簇中的樣本點即被視為異常點進行再處理。除了上述所述的4中基本的聚類方法外,還包括基於網格的的方法等。

孤立點挖掘演算法

孤立點是資料集中不符合一般模型的那些物件,即和其它 的資料有著不同的性質。它可能是度量或執行錯誤所導致的,也可能是固有資料變異性的結果。對此,給出了其本質性定義 孤立點是在資料集中與眾不同的資料,使人懷疑這些資料 並非隨機偏差,而是產生於完全不同的機制。一般的,孤立點挖掘問題可以被看作兩個子問題 在...

sql孤立使用者解決方法

如圖,無登入名,所屬為孤立帳戶 其表現可以為 同名在安全性中存在,但是沒存在對某庫的訪問許可權 訪庫安全性中有使用者名稱,為上圖所示。孤立帳戶,就是某個資料庫的帳戶只有使用者名稱而沒有登入名,這樣的使用者在使用者庫的sysusers系統表中存在,而在master資料庫的syslogins中卻沒有對應...

孤立點檢測的幾種方法

孤立點檢測又稱為異常檢測,離群值檢測等 什麼是孤立點?孤立點是乙個觀測值,它與其它觀測值的差別如此之大,以至於懷疑它是由不同的機制產生的 孤立點的一些場景 1 日誌中的孤立點,試圖入侵者 2 一群學生中的孤立點,天才 or 白痴?3 天氣資料,災害,極端天氣 4 信用卡行為,試圖欺詐者 5 低概率事...