髒資料可以理解為帶有不整潔程度的原始資料。原始資料的整潔程度由資料採集質量所決定。
髒資料的表現形式五花八門,如若資料採集質量不過關,拿到的原始資料內容只有更差沒有最差。
髒資料的表現形式包括:
資料採集完後拿到的原始資料到建模前的資料 ———— there is a long way to go.
從資料分析的角度上來講,這個中間處理髒資料的資料預處理和清洗過程幾乎佔到了我們全部機器學習專案的60%-70%的時間。
總體而言就是原始資料 -> 基礎資料預處理/清洗 -> 探索性資料分析 -> 統計繪圖/資料視覺化 -> 特徵工程
缺失值處理方法源資料分析
本次資料清洗的源資料是4個招聘資訊的csv檔案
具體原始檔與**獲取可以訪問我的github位址
"['未知']"
)for i, j in
enumerate
(data[
'address'])
: j = j.replace(
'[','')
.replace(
']','')
data[
'address'
][i]
= j
for i, j in
enumerate
(data[
'salary'])
: j = j.replace(
'k','')
.replace(
'k','')
.replace(
'以上'
,'-0'
) j1 =
int(j.split(
'-')[0
])j2 =
int(j.split(
'-')[1
])j3 =1/
2*(j1+j2)
data[
'salary'
][i]
= j3*
1000
for i, j in
enumerate
(data[
'industrylables'])
: j = j.replace(
'[','')
.replace(
']','')
data[
'industrylables'
][i]
= j
for i, j in
enumerate
(data[
'label'])
: j = j.replace(
'[','')
.replace(
']','')
data[
'label'
][i]
= j
data[
'position_detail'
]= data[
'position_detail'
].fillna(
'未知'
)for i, j in
enumerate
(data[
'position_detail'])
: j = j.replace(
'\r',''
) data[
'position_detail'
][i]
= j
return data
opt = data_clean(
)data = opt.clean_operation(
)data.head(
)執行結果
Python 資料預處理與清洗(學習筆記)
import numpy as np import pandas as pd from matplotlib import pyplot as plt data pd.read csv file.csv encoding gbk data.info 檢視資料型別1 堆疊資料df1 data.iloc...
大資料預處理之資料清洗
現實世界的資料常常是不完全的 有雜訊的 不一致的。資料清洗過程包括遺漏資料處理,雜訊資料處理,以及不一致資料處理。本節介紹資料清洗的主要處理方法。假設在分析乙個商場銷售資料時,發現有多個記錄中的屬性值為空,如顧客的收入屬性,則對於為空的屬性值,可以採用以下方法進行遺漏資料處理。1 忽略該條記錄 若一...
資料探勘 資料預處理之資料清洗
資料清洗 資料清洗作為資料預處理中的乙個步驟,主要用於處理由於資料倉儲中資料不完整 資料雜訊以及資料不一致導致的問題。有人可能質疑,為什麼要對資料進行清洗?忽略那些出問題的資料不行嗎?當然,視而不見確是一種應對策略,但作為資料探勘中的一環,沒有高質量的資料又談何挖掘的可信性。為此,對於資料資料探勘來...