現實世界的資料常常是不完全的、有雜訊的、不一致的。資料清洗過程包括遺漏資料處理,雜訊資料處理,以及不一致資料處理。本節介紹資料清洗的主要處理方法。
遺漏資料處理
假設在分析乙個商場銷售資料時,發現有多個記錄中的屬性值為空,如顧客的收入屬性,則對於為空的屬性值,可以採用以下方法進行遺漏資料處理。
1)忽略該條記錄
若一條記錄中有屬性值被遺漏了,則將此條記錄排除,尤其是沒有類別屬性值而又要進行分類資料探勘時。
當然,這種方法並不很有效,尤其是在每個屬性的遺漏值的記錄比例相差較大時。
2)手工填補遺漏值
一般這種方法比較耗時,而且對於存在許多遺漏情況的大規模資料集而言,顯然可行性較差。
3)利用預設值填補遺漏值
對乙個屬性的所有遺漏的值均利用乙個事先確定好的值來填補,如都用「ok」來填補。但當乙個屬性的遺漏值較多時,若採用這種方法,就可能誤導挖掘程序。
因此這種方法雖然簡單,但並不推薦使用,或使用時需要仔細分析填補後的情況,以盡量避免對最終挖掘結果產生較大誤差。
4)利用均值填補遺漏值
計算乙個屬性值的平均值,並用此值填補該屬性所有遺漏的值。例如,若顧客的平均收入為 10000 元,則用此值填補「顧客收入」屬性中所有被遺漏的值。
5)利用同類別均值填補遺漏值
這種方法尤其適合在進行分類挖掘時使用。
例如,若要對商場顧客按信用風險進行分類挖掘時,就可以用在同一信用風險類別(如良好)下的「顧客收入」屬性的平均值,來填補所有在同一信用風險類別下「顧客收入」屬性的遺漏值。
6)利用最可能的值填補遺漏值
可以利用回歸分析、貝葉斯計算公式或決策樹推斷出該條記錄特定屬性的最大可能的取值。
例如,利用資料集中其他顧客的屬性值,可以構造乙個決策樹來**「顧客收入」屬性的遺漏值。
最後一種方法是一種較常用的方法,與其他方法相比,它最大程度地利用了當前資料所包含的資訊來幫助**所遺漏的資料。
雜訊資料處理很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入了解,想學習的同學歡迎加入大資料學習企鵝群:458345782,有大量乾貨(零基礎以及高階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系
雜訊是指被測變數的乙個隨機錯誤和變化。下面通過給定乙個數值型屬性(如**)來說明平滑去噪的具體方法。
1. bin 方法
bin 方法通過利用應被平滑資料點的周圍點(近鄰),對一組排序資料進行平滑。排序後的資料被分配到若干桶(稱為 bins)中。
如圖 1 所示,對 bin 的劃分方法一般有兩種,一種是等高方法,即每個 bin 中的元素的個數相等,另一種是等寬方法,即每個 bin 的取值間距(左右邊界之差)相同。
圖 1 兩種典型 bin 劃分方法
圖 2 描述了一些 bin 方法技術。首先,對**資料進行排序,然後,將其劃分為若干等高度的 bin,即每個 bin 包含 3 個數值,最後,既可以利用每個 bin 的均值進行平滑,也可以利用每個 bin 的邊界進行平滑。
利用均值進行平滑時,第乙個 bin 中 4、8、15 均用該 bin 的均值替換,利用邊界進行平滑時,對於給定的 bin,其最大值與最小值就構成了該 bin 的邊界,利用每個 bin 的邊界值(最大值或最小值)可替換該 bin 中的所有值。
一般來說,每個 bin 的寬度越寬,其平滑效果越明顯。
圖 2 利用 bin 方法平滑去噪
2. 聚類分析方法
通過聚類分析方法可幫助發現異常資料。相似或相鄰近的資料聚合在一起形成了各個聚類集合,而那些位於這些聚類集合之外的資料物件,自然而然就被認為是異常資料。
如圖 3 所示。聚類分析方法的具體內容將在本章教程大資料探勘中詳細介紹。
圖 3 基於聚類分析方法的異常資料監測
3. 人機結合檢查方法
通過人機結合檢查方法,可以幫助發現異常資料。
例如,利用基於資訊理論的方法可幫助識別手寫符號庫中的異常模式,所識別出的異常模式可輸出到乙個列表中,然後由人對這一列表中的各異常模式進行檢查,並最終確認無用的模式(真正異常的模式)。
這種人機結合檢查方法比手工方法的手寫符號庫檢查效率要高許多。
4. 回歸方法
可以利用擬合函式對資料進行平滑。
例如,借助線性回歸方法,包括多變數回歸方法,就可以獲得多個變數之間的擬合關係,從而達到利用乙個(或一組)變數值來**另乙個變數取值的目的。
利用回歸分析方法所獲得的擬合函式,能夠幫助平滑資料及除去其中的雜訊。
許多資料平滑方法,同時也是資料消減方法,例如,以上描述的 bin 方法可以幫助消減乙個屬性中的不同取值,這也就意味著 bin 方法可以作為基於邏輯挖掘方法的資料消減處理方法。
不一致資料處理
現實世界的資料庫常岀現資料記錄內容不一致的問題,其中的一些資料可以利用它們與外部的關聯,手工解決這種問題。
例如,資料錄入錯誤一般可以通過與原稿進行對比來加以糾正。 此外還有一些方法可以幫助糾正使用編碼時所發生的不一致問題。知識工程工具也可以幫助發 現違反資料約束條件的情況。
由於同一屬性在不同資料庫中的取名不規範,常常使得在進行資料整合時,導致不一致情況的發生。
大資料中資料清理怎麼做的 大資料處理技術之資料清洗
我們在做資料分析工作之前一定需要對資料進行觀察並整理,這是因為挖掘出來的資料中含有很多無用的資料,這些資料不但消耗分析的時間,而且還會影響資料分析結果,所以我們需要對資料進行清洗。在這篇文章中我們重點給大家介紹一下資料清洗的相關知識。那麼什麼是資料清洗呢?一般來說,資料清洗是指在資料集中發現不準確 ...
大資料時代的資料探勘是怎麼做的?
一 資料探勘在大資料時代,資料的產生和收集是基礎,資料探勘是關鍵,資料探勘可以說是大資料最關鍵也是最基本的工作。通常而言,資料探勘也稱為datamining,或知識發現knowledge discovery from data,泛指從大量資料中挖掘出隱含的 先前未知但潛在的有用資訊和模式的乙個工程化...
資料溢位怎麼解決 大資料輿情監測怎麼做的解決方案
對於不了解輿情大資料的,可能不太清楚輿情大資料是什麼意思?甚至可能不知道大資料輿情監測要怎麼做?而對於還沒運用大資料技術,還在用傳統的人工的方式監測輿情的,會有大資料輿情監測如何快速高效做好之類的疑問等。下面蟻坊軟體就重點這對這些問題來一一解答。輿情大資料其實指的是網際網路上海量的網路輿情 資料資訊...