大資料關聯處理大資料預處理之資料清洗

現實世界的資料常常是不完全的、有雜訊的、不一致的。資料清洗過程包括遺漏資料處理，雜訊資料處理，以及不一致資料處理。本節介紹資料清洗的主要處理方法。

假設在分析乙個商場銷售資料時，發現有多個記錄中的屬性值為空，如顧客的收入屬性，則對於為空的屬性值，可以採用以下方法進行遺漏資料處理。1)忽略該條記錄

若一條記錄中有屬性值被遺漏了，則將此條記錄排除，尤其是沒有類別屬性值而又要進行分類資料探勘時。

當然，這種方法並不很有效，尤其是在每個屬性的遺漏值的記錄比例相差較大時。2)手工填補遺漏值

一般這種方法比較耗時，而且對於存在許多遺漏情況的大規模資料集而言，顯然可行性較差。3)利用預設值填補遺漏值

對乙個屬性的所有遺漏的值均利用乙個事先確定好的值來填補，如都用「ok」來填補。但當乙個屬性的遺漏值較多時，若採用這種方法，就可能誤導挖掘程序。

因此這種方法雖然簡單，但並不推薦使用，或使用時需要仔細分析填補後的情況，以盡量避免對最終挖掘結果產生較大誤差。4)利用均值填補遺漏值

計算乙個屬性值的平均值，並用此值填補該屬性所有遺漏的值。例如，若顧客的平均收入為 10000 元，則用此值填補「顧客收入」屬性中所有被遺漏的值。5)利用同類別均值填補遺漏值

這種方法尤其適合在進行分類挖掘時使用。

例如，若要對商場顧客按信用風險進行分類挖掘時，就可以用在同一信用風險類別(如良好)下的「顧客收入」屬性的平均值，來填補所有在同一信用風險類別下「顧客收入」屬性的遺漏值。6)利用最可能的值填補遺漏值

可以利用回歸分析、貝葉斯計算公式或決策樹推斷出該條記錄特定屬性的最大可能的取值。

例如，利用資料集中其他顧客的屬性值，可以構造乙個決策樹來**「顧客收入」屬性的遺漏值。

最後一種方法是一種較常用的方法，與其他方法相比，它最大程度地利用了當前資料所包含的資訊來幫助**所遺漏的資料。

雜訊是指被測變數的乙個隨機錯誤和變化。下面通過給定乙個數值型屬性(如**)來說明平滑去噪的具體方法。

1. bin 方法

bin 方法通過利用應被平滑資料點的周圍點(近鄰)，對一組排序資料進行平滑。排序後的資料被分配到若干桶(稱為 bins)中。

如圖 1 所示，對 bin 的劃分方法一般有兩種，一種是等高方法，即每個 bin 中的元素的個數相等，另一種是等寬方法，即每個 bin 的取值間距(左右邊界之差)相同。

圖 2 描述了一些 bin 方法技術。首先，對**資料進行排序，然後，將其劃分為若干等高度的 bin，即每個 bin 包含 3 個數值，最後，既可以利用每個 bin 的均值進行平滑，也可以利用每個 bin 的邊界進行平滑。

利用均值進行平滑時，第乙個 bin 中 4、8、15 均用該 bin 的均值替換，利用邊界進行平滑時，對於給定的 bin，其最大值與最小值就構成了該 bin 的邊界，利用每個 bin 的邊界值(最大值或最小值)可替換該 bin 中的所有值。

一般來說，每個 bin 的寬度越寬，其平滑效果越明顯。

2. 聚類分析方法

通過聚類分析方法可幫助發現異常資料。相似或相鄰近的資料聚合在一起形成了各個聚類集合，而那些位於這些聚類集合之外的資料物件，自然而然就被認為是異常資料。

如圖 3 所示。聚類分析方法的具體內容將在本章教程大資料探勘中詳細介紹。

3. 人機結合檢查方法

通過人機結合檢查方法，可以幫助發現異常資料。

例如，利用基於資訊理論的方法可幫助識別手寫符號庫中的異常模式，所識別出的異常模式可輸出到乙個列表中，然後由人對這一列表中的各異常模式進行檢查，並最終確認無用的模式(真正異常的模式)。

這種人機結合檢查方法比手工方法的手寫符號庫檢查效率要高許多。

4. 回歸方法

可以利用擬合函式對資料進行平滑。

例如，借助線性回歸方法，包括多變數回歸方法，就可以獲得多個變數之間的擬合關係，從而達到利用乙個(或一組)變數值來**另乙個變數取值的目的。

利用回歸分析方法所獲得的擬合函式，能夠幫助平滑資料及除去其中的雜訊。

許多資料平滑方法，同時也是資料消減方法，例如，以上描述的 bin 方法可以幫助消減乙個屬性中的不同取值，這也就意味著 bin 方法可以作為基於邏輯挖掘方法的資料消減處理方法。

現實世界的資料庫常岀現資料記錄內容不一致的問題，其中的一些資料可以利用它們與外部的關聯，手工解決這種問題。

例如，資料錄入錯誤一般可以通過與原稿進行對比來加以糾正。此外還有一些方法可以幫助糾正使用編碼時所發生的不一致問題。知識工程工具也可以幫助發現違反資料約束條件的情況。

由於同一屬性在不同資料庫中的取名不規範，常常使得在進行資料整合時，導致不一致情況的發生。

大資料關聯處理 大資料預處理之資料清洗