原始資料存在幾個問題:不一致;重複;含雜訊;緯度高。
盡可能賦予屬性名和屬性值明確的含義;
去除唯一屬性;
去除重複性;
合理選擇關聯字段;
刪除法,根據資料處理的不同角度,刪除法可分為以下4種:
插補法:在條件允許的情況下,找到缺失值的替代值進行插補,盡可能還原真實資料是更好的方法。常見的方法有均值插補、回歸插補、二階插補、熱平台、冷平台等單一變數插補。
雜訊是乙個測量變數中的隨機錯誤和偏差,包括錯誤值或偏離期望的孤立點值。
在進行雜訊檢查後,通常採用分箱、聚類、回歸、計算機檢查和人工檢查結合等方法「光滑」資料,去掉資料中的雜訊。
分箱:分箱方法是一種簡單常用的預處理方法,通過考察相鄰資料來確定最終值。所謂「分箱」,實際上就是按照屬性值劃分的子區間,如果乙個屬性值處於某個子區間範圍內,就稱把該屬性值放進這個子區間所代表的「箱子」內。把待處理的資料(某列屬性值)按照一定的規則放進一些箱子中,考察每乙個箱子中的資料,採用某種方法分別對各個箱子中的資料進行處理。在採用分箱技術時,需要確定的兩個主要問題就是:如何分箱以及如何對每個箱子中的資料進行平滑處理。
設定權重(箱子深度)為4,分箱後
箱1:800 1000 1200 1500
箱2:1500 1800 2000 2300
箱3:2500 2800 3000 3500
箱4:4000 4500 4800 5000
設定區間範圍(箱子寬度)為1000元人民幣,分箱後
箱1:800 1000 1200 1500 1500 1800
箱2:2000 2300 2500 2800 3000
箱3:3500 4000 4500
箱4:4800 5000
如將客戶收入劃分為1000元以下、1000~2000、2000~3000、3000~4000和4000元以上幾組,分箱後
箱1:800
箱2:1000 1200 1500 1500 1800 2000
箱3:2300 2500 2800 3000
箱4:3500 4000
箱5:4500 4800 5000
2.2.2 資料平滑方法
資料變換策略主要包括以下幾種:
資料歸約通常用維歸約、數值歸約方法實現。維歸約指通過減少屬性的方式壓縮資料量,通過移除不相關的屬性,可以提高模型效率。常見的維歸約方法有:分類樹、隨機森林通過對分類效果的影響大小篩選屬性;小波變換、主成分分析通過把原資料變換或投影到較小的空間來降低維數。
機器學習之常見的資料預處理
機器學習之常見的資料預處理 原始資料存在的幾個問題 不一致 重複 含雜訊 維度高。1.1 資料探勘中使用的資料的原則 盡可能賦予屬性名和屬性值明確的含義 去除惟一屬性 去除重複性 合理選擇關聯字段。1.2 常見的資料預處理方法 資料清洗 資料清洗的目的不只是要消除錯誤 冗餘和資料噪音,還要能將按不同...
機器學習 資料預處理
均值為0,標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換,變換到 0,1 區間 也可以是其他固定最小最大值的區間 from s...
機器學習 資料預處理
1 連續資料特徵離散化的方法 由於lr 中模型表達能力有限,可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散 取值範圍均勻劃分成n 等分,每份的間距相等。2 等頻離散 均勻分為n 等分,每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法 統計樣本的實際觀測值與理論判斷值之間的...