異常值檢查方法
1)基於統計分析
異常檢測問題就在統計學領域裡得到廣泛研究,通常使用者用某個統計分布對資料點進行建模,再以假定的模型,根據點的分布來確定是否異常。如通過分析統計資料的散度情況,即資料變異指標來對資料的總體特徵有更進一步的了解,對資料的分布情況有所了解,進而通過資料變異指標來發現資料中的異常點資料。常用的資料變異指標有極差、均差、標準差、變異係數等。
2)3σ原則
若資料岑仔正態分佈,在3σ原則下,異常值為一組測定值中與平均值的偏差超過3倍標準差的值。如果資料服從正態分佈,距離平均值3σ之外的值出現的概率為p(|x - μ| > 3σ) <= 0.003,屬於極個別的小概率事件。如果資料不服從正態分佈,也可以用遠離平均值的多少倍標準差來描述。
3)箱線圖分析
箱線圖提供了識別異常值的乙個標準:如果乙個值小於ql-1.5iqr或大於qu+1.5iqr的值,則被稱為異常值。(* ql為下四分位數,表示全部觀察值中有四分之一的資料取值比它小;* qu為上四分位數,表示全部觀察值中有四分之一的資料取值比它大;* iqr為四分位數間距,是上四分位數qu與下四分位數ql的差值,包含了全部觀察值的一半。)
箱型圖判斷異常值的方法以四分位數和四分位距為基礎,四分位數具有魯棒性:25%的資料可以變得任意遠並且不會干擾四分位數,所以異常值不能對這個標準施加影響。因此箱型圖識別異常值比較樂觀,在識別異常值時有一定的優越性。
4)基於模型檢測
首先建立乙個資料模型,異常時那些同模型不能完美擬合的物件;如果模型是簇的集合,則異常是不顯著屬於任何簇的物件;在使用回歸模型時,異常時相對遠離**值的物件。
優點:有堅實的統計學基礎,當存在充分的資料和所用的檢驗型別的知識時,這些檢驗可能非常有效。
缺點:對於多元資料,可用的選擇少一些,並且對於高維資料,這些檢測可能性很差。
5)基於距離
基於距離的方法時基於下面這個假設:即若乙個資料物件和大多數點距離都很遠,那些個物件就是異常。通過定義物件之間的臨近性變數,根據距離判斷異常物件是否遠離其他物件,主要使用的距離度量方法有絕對距離(曼哈頓距離)、歐氏距離和馬氏距離等方法。
優點:基於距離的方法比基於統計類方法要簡單得多;因為為乙個資料集合定義乙個距離的度量要比確定資料集合的分布容易的多。
缺點:基於鄰近度的方法需要o(m2)時間,大資料集不適用;該方法對引數的選擇是敏感的;不能處理具有不同密度區域的資料集,因為它使用全域性閾值,不能考慮這種密度的變化。
6)基於密度
考察當前點周圍密度,可以發現區域性異常點,離群點的區域性密度顯著低於大部分近鄰點,適用於非均勻的資料集。
優點:給出了物件是離群點的定量度量,並且即使資料具有不同的區域也能夠很好的處理。
缺點:與基於距離的方法一樣,這些方法必然具有o(m2)的時間複雜度。對於低維資料使用特定的資料結構可以達到o(mlogm);引數選擇困難。雖然演算法通過觀察不同的k值,取得最大離群點得分來處理該問題,但是,仍然需要選擇這些值的上下界。
7)基於聚類
物件是否被認為是異常點可能依賴於簇的個數(如k很大時的雜訊簇)。該問題也沒有簡單的答案。一種策略是對於不同的簇個數重複該分析。另一種方法是找出大量小簇,其想法是:
優點:
缺點:
8)基於鄰近度的異常點檢測
乙個物件是異常的,如果它遠離大部分點。這種方法比統計學方法更一般、更容易使用,因為確定資料集的有意義的鄰近性度量比確定它的統計分布更容易。乙個物件的異常點得分由到它的k-最近鄰的距離給定。異常點得分對k的取值高度敏感。如果k太小(例如1),則少量的鄰近異常異常點可能導致較異常低的異常點得分;如果k太大,則點數少於k的簇中所有的物件可能都成了異常異常點。為了使該方案對於k的選取更具有魯棒性,可以使用k個最近鄰的平均距離。
優點:
缺點:
工業大資料漫談3 什麼是工業大資料?
前面兩部分我們大概了解了一下大資料的由來和特點,這一部分我們來看看什麼是工業大資料,它和傳統我們理解的大資料有什麼不同?在了解什麼是工業大資料的時候,我覺得我們有必要先了解一下什麼是工業以及工業都包括哪些門類。工業 industry 是指採集原料,並把它們加工成產品的工作和過程。一般,我們把工業分為...
工業大資料的特徵
定義 工業大資料即工業資料的總和,分成三類,即企業資訊化資料 工業物聯網資料,以及外部跨界資料。空間分布 不僅存在於企業內部,還存在於產業鏈和跨產業鏈的經營主體中,如scm crm。產生主體 人和機器。人產生的資料如 設計資料 業務資料 產品資料。機器資料有生產裝置 生產排程 質量控制與績效資料 和...
工業大資料漫談17 雲計算與工業大資料的關係
前面聊了工業大資料與工業4.0和物聯網 iot 的關係,今天來看看工業大資料和雲計算的關係。雲計算這一概念可以追溯到上個世紀sun和oracle提出的 網路就是計算機 限於當時的網際網路條件等多方面的原因,這一提法後來不了了之。造化弄人,後來當雲計算再次 火 起來的時候,雲計算的鼻祖之一sun卻處境...