資料探勘 資料預處理之資料清洗

2022-08-15 09:24:12 字數 909 閱讀 6253

資料清洗:資料清洗作為資料預處理中的乙個步驟,主要用於處理由於資料倉儲中資料不完整、資料雜訊以及資料不一致導致的問題。

有人可能質疑,為什麼要對資料進行清洗?忽略那些出問題的資料不行嗎?當然,視而不見確是一種應對策略,但作為資料探勘中的一環,沒有高質量的資料又談何挖掘的可信性。為此,對於資料資料探勘來說,資料的清洗大有必要。

對於資料缺失可以簡單理解為感興趣的資料沒有值,對於這種情形,常見的處理方法有以下幾種方式:

1.忽略該記錄;

2.手動填寫空缺記錄;

3.使用全域性預設值;

4.使用屬性均值來填充記錄;

5.使用同類樣本的均值填充記錄(多用於具有分類性質的情況中);

6.使用**值(例如採用回歸、構建決策樹進行推斷等方式來**可能值);

對於資料雜訊可以理解為資料中存在錯誤或者資料偏離期望值,『即:測量過程中測量值相對於真實值產生的偏差或錯誤。去除雜訊主要有以下三種方法:

1.分箱:所謂分箱就是對原始資料進行分組,然後對每一組內的資料進行平滑處理。常見的分箱的方式主要有等深分箱(每組資料一樣多)、等寬分箱(每組區間長度一樣)、使用者自定義、最小熵(各分組內的資料具有最小熵,即:最小的不確定性);而平滑的方式主要有均值平滑(用組內均值來代替組內每個元素)、中間值平滑(用組內中間值來代替組內每個元素)、邊界平滑(用組內離得較近的邊界值來代替組內元素);

2.回歸:回歸的方法通過對資料進行擬合發現匹配資料的曲線(線性回歸)或者面(多線性回歸)即擬合函式,進而通過擬合函式對資料進行平滑處理;

3.聚類:聚類將具有相同值的項分在乙個cluster裡面,這樣就可以很容易得到outliers。

對於許多平滑方法來說,同樣適用於資料規約。例如可以通過分箱的方法可以削減屬性的值空間;反之,資料離散化的方法例如概念分層同樣可以用於資料平滑處理。

對於資料不一致主要由於資料來源不一致導致資料內涵不一致。

大資料預處理之資料清洗

現實世界的資料常常是不完全的 有雜訊的 不一致的。資料清洗過程包括遺漏資料處理,雜訊資料處理,以及不一致資料處理。本節介紹資料清洗的主要處理方法。假設在分析乙個商場銷售資料時,發現有多個記錄中的屬性值為空,如顧客的收入屬性,則對於為空的屬性值,可以採用以下方法進行遺漏資料處理。1 忽略該條記錄 若一...

資料探勘之資料預處理

現實情況中,你的資料可能是不完整的 缺少屬性值或某些感興趣的屬性或僅包含聚類資料 含雜訊的 包含錯誤或存在偏離期望的離群值 並且是不一致的。資料清理 填寫缺失的值 光滑雜訊資料 識別或刪除離群點並解決不一致性 資料整合 當資料來自多個資料來源時,而同乙個屬性在不同資料來源不同,合成時存在冗餘 資料規...

資料探勘之漫談資料預處理

接觸資料探勘以及相關的演算法也有快兩年的時間了。整理下自己使用過的預處理方法,以及一些必備知識。總體來說,預處理包括大概四個部分 清理,整合,歸約和變形。預處理中使用的技術不如 演算法 那麼 高階 但是元資料本身質量的好壞直接決定著模型的上界。資料編碼格式 unicode utf 8 gbk是我常遇...