機器學習之常見的資料預處理:原始資料存在的幾個問題:不一致;重複;含雜訊;維度高。
1.1 資料探勘中使用的資料的原則
盡可能賦予屬性名和屬性值明確的含義; 去除惟一屬性; 去除重複性; 合理選擇關聯字段。
1.2 常見的資料預處理方法
資料清洗:資料清洗的目的不只是要消除錯誤、冗餘和資料噪音,還要能將按不同的、不相容的規則所得的各種資料集一致起來。 資料整合:將多個資料來源中的資料合併,並存放到乙個一致的資料儲存(如資料倉儲)中。這些資料來源可能包括多個資料庫、資料立方體或一般檔案。
資料變換:找到資料的特徵表示,用維度變換來減少有效變數的數目或找到資料的不變式,包括規格化、規約、切換和投影等操作。 資料規約:是在對發現任務和資料本身內容理解的基礎上,尋找依賴於發現目標的表達資料的有用特徵,以縮減資料模型,從而在盡可能保持資料原貌的前提下最大限度的精簡資料量,主要有兩個途徑:屬性選擇和資料抽樣,分別針對資料庫中的屬性和記錄。
二、資料清洗
2.1 缺失值處理的兩種方法
刪除法,根據資料處理的不同角度,刪除法可分為以下4種:
(1)刪除觀測樣本 (2)刪除變數:當某個變數缺失值較多且對研究目標影響不大時,可以將整個變數整體刪除 (3)使用完整原始資料分析:當資料存在較多缺失而其原始資料完整時,可以使用原始資料替代現有資料進行分析; (4)改變權重:當刪除缺失資料會改變資料結構時,通過對完整資料按照不同的權重進行加工,可以降低刪除資料帶來的偏差。
插補法:在條件允許的情況下,找到缺失值的替代值進行插補,盡可能還原真實資料是更好的方法。常見的方法有均值插補、回歸插補、二階插補、熱平台、冷平台等單一變數插補。
(1)均值法是通過計算缺失值所在變數所有非缺失觀測值的均值,使用均值來代替缺失值的插補方法。 (2)均值法不能利用相關變數資訊,因此會存在一定偏差,而回歸模型是將需要插補變數作為因變數,其他相關變數作為自變數,通過建立回歸模型**出因變數的值對缺失變數進行插補。 (3)熱平台插補是指在非缺失資料集中找到乙個與缺失值所在樣本相似的樣本(匹配樣本),利用其中的觀測值對缺失值進行插補。 (4)在實際操作中,尤其當變數數量很多時,通常很難找到與需要插補樣本完全相同的樣本,此時可以按照某些變數將資料分層,在層中對缺失值使用均值插補,即採取冷平台插補法。
2.2 雜訊資料處理
雜訊是乙個測量變數中的隨機錯誤和偏差,包括錯誤值或偏離期望的孤立點值。
雜訊檢查中比較常見的方法:
(1)通過尋找資料集中與其他觀測值及均值差距最大的點作為異常 (2)聚類方法檢測,將類似的取值組織成「群」或「簇」,落在「簇」集合之外的值被視為離群點。 在進行雜訊檢查後,通常採用分箱、聚類、回歸、計算機檢查和人工檢查結合等方法「光滑」資料,去掉資料中的雜訊。
分箱:分箱方法是一種簡單常用的預處理方法,通過考察相鄰資料來確定最終值。所謂「分箱」,實際上就是按照屬性值劃分的子區間,如果乙個屬性值處於某個子區間範圍內,就稱把該屬性值放進這個子區間所代表的「箱子」內。把待處理的資料(某列屬性值)按照一定的規則放進一些箱子中,考察每乙個箱子中的資料,採用某種方法分別對各個箱子中的資料進行處理。在採用分箱技術時,需要確定的兩個主要問題就是:如何分箱以及如何對每個箱子中的資料進行平滑處理。
2.2.1 分箱的方法:有4種:等深分箱法、等寬分箱法、最小熵法和使用者自定義區間法。
等深分箱法(統一權重):將資料集按記錄行數分箱,每箱具有相同的記錄數,每箱記錄數稱為箱子的深度。這是最簡單的一種分箱方法。
設定權重(箱子深度)為4,分箱後
箱1:800 1000 1200 1500
箱2:1500 1800 2000 2300
箱3:2500 2800 3000 3500
箱4:4000 4500 4800 5000
等寬分箱法(統一區間):使資料集在整個屬性值的區間上平均分布,即每個箱的區間範圍是乙個常量,稱為箱子寬度。
設定區間範圍(箱子寬度)為1000元人民幣,分箱後
箱1:800 1000 1200 1500 1500 1800
箱2:2000 2300 2500 2800 3000
箱3:3500 4000 4500
箱4:4800 5000
使用者自定義區間:使用者可以根據需要自定義區間,當使用者明確希望觀察某些區間範圍內的資料分布時,使用這種方法可以方便地幫助使用者達到目的。
如將客戶收入劃分為1000元以下、1000~2000、2000~3000、3000~4000和4000元以上幾組,分箱後
箱1:800
箱2:1000 1200 1500 1500 1800 2000
箱3:2300 2500 2800 3000
箱4:3500 4000
箱5:4500 4800 5000
2.2.2 資料平滑方法
按平均值平滑 :對同一箱值中的資料求平均值,用平均值替代該箱子中的所有資料。 按邊界值平滑:用距離較小的邊界值替代箱中每一資料。 按中值平滑:取箱子的中值,用來替代箱子中的所有資料。
三、資料整合
資料整合中的兩個主要問題是:
(1)如何對多個資料集進行匹配,當乙個資料庫的屬性與另乙個資料庫的屬性匹配時,必須注意資料的結構; (2)資料冗餘。兩個資料集有兩個命名不同但實際資料相同的屬性,那麼其中乙個屬性就是冗餘的。
四、資料變換
資料變換策略主要包括以下幾種:
光滑:去掉雜訊; 屬性構造:由給定的屬性構造出新屬性並新增到資料集中。例如,通過「銷售額」和「成本」構造出「利潤」,只需要對相應屬性資料進行簡單變換即可 聚集:對資料進行彙總。比如通過日銷售資料,計算月和年的銷售資料; 規範化:把資料單按比例縮放,比如資料標準化處理; 離散化:將定量資料向定性資料轉化。比如一系列連續資料,可用標籤進行替換(0,1);
五、資料歸約
資料歸約通常用維歸約、數值歸約方法實現。維歸約指通過減少屬性的方式壓縮資料量,通過移除不相關的屬性,可以提高模型效率。常見的維歸約方法有:分類樹、隨機森林通過對分類效果的影響大小篩選屬性;小波變換、主成分分析通過把原資料變換或投影到較小的空間來降低維數。
機器學習 常見的資料預處理
原始資料存在幾個問題 不一致 重複 含雜訊 緯度高。盡可能賦予屬性名和屬性值明確的含義 去除唯一屬性 去除重複性 合理選擇關聯字段 刪除法,根據資料處理的不同角度,刪除法可分為以下4種 插補法 在條件允許的情況下,找到缺失值的替代值進行插補,盡可能還原真實資料是更好的方法。常見的方法有均值插補 回歸...
機器學習之資料預處理
1.為什麼需要資料預處理?原始資料來自於現實場景,常常有以下幾個特徵 髒 亂 差 缺。髒體現在原始資料裡混雜許多雜訊資料,亂體現在原始資料各維度量綱不同一。差體現在資料錯誤 出現不尋常不一致,這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化 標準化和中心化是資料預處理中...
機器學習之資料預處理
from sklearn.preprocessing import standardscaler x scaler standardscaler y scaler standardscaler x train x scaler.fit transform x train y train y scal...