現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。
資料預處理有多種方法:
資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。
一、資料清理
首先是處理空缺值,如:要分析某市場的銷售和顧客資料,但顧客的income項沒有記錄,如何處理這類問題
1、忽略元組:忽略整條記錄
2、人工填寫空缺值:根據其它資料手工填寫
3、使用乙個全域性常量填充空缺值:使所有income項記錄都以乙個常量(如:2000)填充
4、使用屬性的平均值填充空缺值:取得其它記錄中該屬性的平均值進行填充
5、使用與給定元組屬同一類的所有樣本的平均值:與上面相類似
6、使用最可能的值填充空缺值:與上面相類似
然後是處理雜訊資料,
1、分箱:通過考察周圍的值來平滑儲存資料的值,有兩種方法:
按箱平均值平滑,箱中每乙個值被箱中的平均值替換;
按箱邊界平滑,箱中的最大和最小值被視為箱邊界,箱中的每乙個值被最近的邊界值替換
2、聚類:簡單來說就是取得相對比較集中的值,相對分散的值忽略不計的方法
3、回歸:通過乙個合適的函式(如回歸函式)來平滑資料
4、計算機和人工檢查結合:即手工處理
最後是處理不一致資料
主要方法是參照其它資料,如紙上記錄,人工的加以更正
二、資料整合
即由多個資料儲存合併資料。
三、資料變換
將資料轉換成適用於資料探勘的形式。
四、資料歸約
資料探勘時往往資料量非常大,在少量資料上進行挖掘分析需要很長的時間,資料歸約技術可以用來得到資料集的歸約表示,它小得多,但仍然接近於保持原資料的完整性,並結果與歸約前結果相同或幾乎相同。
資料預處理是目前資料探勘乙個熱門的研究方面,畢竟這是由資料預處理的產生背景所決定的--現實世界中的資料幾乎都髒資料
資料預處理
常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...
資料預處理
用cut函式分箱 有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況 路上的汽車數量 根據時間 分鐘資料 建模。具體的分鐘可能不重要,而時段如 上午 下午 傍晚 夜間 深夜 更有利於 如此建模更直觀,也能避免過度擬合。這裡我們定義乙個簡單的 可復用的函式,輕鬆為任意變數分箱。def binni...
資料預處理
資料預處理 資料物件和屬性型別,資料的基本統計,資料視覺化,度量資料相似性和差異性 怎麼把連續屬性變成離散屬性,比如顏色,灰度是連續變化的,但可以量化到0 255離散值,所以做完資料去燥之後格式化處理之後要離散化。資料的計量 定類尺度 等號不等號 定序尺度,定距尺度 分類 定比尺度 所有數學計算 資...