資料探勘筆記十二 離群點檢測

2021-08-15 12:26:35 字數 2538 閱讀 5975

離群點檢測或異常檢測,是找出其行為很不同於預期物件的過程。這種物件稱為離群點或異常。離群點檢測和聚類分析是兩項高度相關的任務。聚類發現資料集中的多數模式並據此組織資料,而離群點檢測則試圖捕獲顯著偏離多數模式的異常情況。

離群點顯著不同於其他物件。離群點型別包括全域性離群點、情境離群點、集體離群點。離群點檢測的挑戰來自:正常物件和離群點的有效建模、針對應用的離群點檢測、在離群點檢測中處理雜訊、可理解性。

如果得到專家標記的正常和離群點物件例項,可以建立離群點檢測模型,包括監督方法、無監督方法、半監督方法。

離群點檢測方法對離群點與其他資料做出假定,根據所做的假定,可以把離群點檢測方法分為三類:統計學方法、基於鄰近性的方法和基於聚類的方法。

離群點檢測的統計學方法假定資料集中的正常物件由乙個隨機過程(生成模型)產生,因此,正常物件出現在該隨機模型的高概率區域中,而低概率區域中的物件是離群點。

離群點檢測的統計學方法一般思想是:學習乙個擬合給定資料集的生成模型,然後識別該模型低概率區域中的物件,把它們作為離群點。根據如何指定和如何學習模型,離群點檢測的統計學方法可劃分為兩個主要型別:引數方法和非引數方法。

引數方法假定正常的物件唄乙個以θ為引數的引數分布產生,該引數分布的概率密度函式f(x,θ)給出物件x被該分布產生的概率,該值越小,x越可能是離群點。

非引數方法並不假定先驗統計模型,而是試圖從輸入資料確定模型。

引數方法包括:基於正態分佈的一元離群點檢測、多元離群點檢測(馬哈拉諾比斯距離)、使用混合引數分布。

非引數方法包括:直方圖。

基於鄰近性的方法假定:離群點物件與它最近鄰的鄰近性顯著偏離資料集中其他物件與它們近鄰之間的鄰近性。

有兩種方法:基於距離的和基於密度的。基於距離的考慮物件給定半徑的鄰域。基於密度的考察物件和它近鄰的密度。cell是一種基於距離的離群點檢測的基於網格的方法。

基於聚類的方法通過考察物件與簇之間的關係檢測離群點。離群點是乙個物件,屬於小的偏遠簇,或不屬於任何簇。

基於分類的離群點檢測方法的思想是,訓練乙個可以區分正常資料離群點的分類模型。

情境屬性包括空間屬性、時間、網路位置和複雜結構的屬性。行為屬性定義物件的特徵,並用於估計物件在它所屬的情境下是否是離群點。

一組資料物件形成乙個集體離群點,如果這些物件作為乙個整體顯著地偏離整個資料集。儘管該組群中的每個物件可能並非離群點。

高維資料離群點檢測面臨離群點解釋、資料稀疏性、資料子空間、維度可伸縮性的挑戰。

擴充的傳統離群點檢測方法,使用傳統的基於近鄰性的離群點模型,為克服高維空間鄰近性度量惡化問題,使用其他度量或構造子空間在其中檢測離群點。

搜尋各種子空間中的離群點的優點是,如果發現乙個物件是很低維度的子空間中的離群點,則該子空間提供了重要資訊,解釋了物件為什麼以及在何種程度上是離群點。

為高維離群點建立乙個新模型,避免鄰近性度量,而採用新的啟發式方法來檢測離群點。

1)假定乙個給定的統計過程用來產生資料物件集。離群點是顯著偏離其餘物件的資料物件,彷彿它是被不同的機制產生。

2)離群點的型別包括全域性離群點、情境離群點、集體離群點。乙個物件可能是多種型別的離群點。

3)全域性離群點是最簡單的離群點形式,並且最容易檢測。情境離群點是關於物件的特定情境顯著地偏離其他物件。資料物件是乙個子集形成集體離群點,如果這些物件顯著偏離整個資料集,儘管個體資料物件可能不是離群點。集體離群點檢測需要背景資訊來對物件之間聯絡建模,以便發現離群點的組群。

4)離群點檢測的挑戰包括發現合適的資料模型、離群點檢測系統對應用的依賴性、找到區別離群點與雜訊的方法、提供為什麼物件唄識別為離群點的解釋。

5)離群點檢測方法可以根據用於分析的資料樣本是否是專家提供的、可以用來建立離群點檢測模型的標號來分類。在這種情況下,檢測方法可以是監督的、無監督的、半監督的。或者,離群點檢測方法可以根據它們對正常物件和離群點的假定來組織,這種類別包括統計學方法、基於鄰近性的方法和基於聚類的方法。

6)統計學離群點檢測方法或基於模型的方法,假定正常的資料物件遵守乙個統計學模型,而不遵守該模型的資料被視為離群點。這種模型可以是引數的(假定資料被乙個引數分布產生)和非引數的(由資料學習模型,而不是先驗地假定乙個)。多元資料的引數方法可以使用馬哈拉諾比斯距離、x2統計量或多個引數模型的混合。直方圖和核密度估計都是非引數模型的例子。

7)基於鄰近性的離群點檢測方法,假定乙個物件是離群點,如果該物件與它最近鄰的鄰近性顯著偏離相同資料集中大部分其他物件與它們最近鄰的鄰近性。基於距離的離群點檢測方法考慮被半徑定義的物件的鄰域。乙個物件是離群點,如果它的鄰域沒有足夠多的其他點。在基於密度的離群點檢測方法中,乙個物件是離群點,如果它的密度比它的近鄰相對低得多。

8)基於聚類的離群點檢測方法,假定正常的資料物件屬於大的、稠密的簇,而離群點屬於小的或稀疏的簇,或不屬於任何簇。

9)基於分類的離群點檢測方法,使用一類模型,構建乙個僅描述正常類的分類器,不屬於正常類的任何樣本都被視為離群點。

10)情境離群點和集體離群點檢測探索資料中的結構。在情境離群點檢測,結構是使用情境屬性定義的情境。在集體離群點檢測,結構是蘊涵的,並且作為挖掘過程的一部分來探索。為了檢測這類離群點,一種方法是把該問題轉換成傳統的離群點檢測問題,另一種方法直接對結構建模。

11)高維資料的離群點檢測方法可以劃分為三種主要方法,這些包括擴充的傳統離群點檢測、找出子空間中的離群點和對高維離群點建模。

資料探勘(五)離群點檢測

5 異常檢測方法 異常物件被稱作離群點。異常檢測也稱偏差檢測和例外挖掘。異常檢測的方法 1 基於模型的技術 首先建立乙個資料模型,異常是那些同模型不能完美擬合的物件 如果模型是簇的集合,則異常是不顯著屬於任何簇的物件 在使用回歸模型時,異常是相對遠離 值的物件。2 基於鄰近度的技術 通常可以在物件之...

資料探勘中的離群點檢測

離群點的定義 離群點是乙個資料物件,它顯著不同於其他資料物件,好像它是被不同的機制產生一樣。1 客體的異常行為導致,如欺詐 入侵 不尋常的實驗結果 2 資料測量和收集誤差 3 資料變數內在特性引起,如顧客新的購買模式 基因突變等 離群點檢測的必要性 1 去除某些異常資料 2 乙個人的雜訊也許是其他人...

離群點檢測梳理

描述 離群點檢測,是發現於大部分其他物件顯著不同的物件。大部分分析都會把這些差異資訊丟棄,然而在一些場景中,這些資料可能存在巨大的價值 應用範圍 詐騙檢測 貸款審批 電子商務 網路入侵 天氣預報等領域 分類標準 分類標準 分類描述 資料範圍 全域性離群點和區域性離群點 離群特徵是從區域性和總體來看的...