Python資料預處理簡介(四)

2021-09-08 17:35:05 字數 390 閱讀 9621

在資料探勘中,海量的原始資料中存在大量不完整(有缺失值),不一致、有異常的資料,嚴重影響到資料探勘建模的執行效率,甚至可能導致挖掘結果的偏差。資料預處理提高資料的質量。統計發現,在資料探勘的過程中,資料預處理工作量佔到了整個過程的60%。

資料預處理的主要內容包括資料清洗、資料整合、資料變換和資料規約。

資料清洗主要是刪除原始資料中的無關資料、重複資料,平滑雜訊資料,處理缺失值、異常值等。

資料探勘需要的資料往往分布在不同的資料來源中,資料整合就是將多個資料來源合併存放在乙個一致的資料儲存中的過程。

資料變換主要是對資料進行規範化處理,將資料轉換成「適當的」形式,以適應於挖掘任務及演算法的需要。

在大資料集上進行複雜的資料分析和挖掘需要很長的時間,資料規約產生更小但保持原資料完整性的新資料集。

Python資料預處理

1.匯入資料檔案 excel,csv,資料庫檔案等 df read table file,names 列名1,列名2,sep encoding file是檔案路徑,names預設為檔案的第一行為列名,sep為分隔符,預設為空,表示預設匯入為一列 encoding設定檔案編碼,匯入中文時,需設定utf...

python資料預處理

scikit learn 提供的binarizer能夠將資料二元化 from sklearn.preprocessing import binarizer x 1,2,3,4,5 5,4,3,2,1 3,3,3,3,3 1,1,1,1,1 print before transform x binar...

python資料預處理

import pandas as pd 缺失值處理 df pd.read excel users caizhengjie desktop a.xlsx print df 直接呼叫info方法就會返回每一列的缺失值 print df.info print isnull方法判斷哪個是缺失值 print ...