簡單的資料清洗

2021-10-08 17:44:36 字數 2860 閱讀 1583

1.資料描述

df.head(

)df.info(

)df.describe(

)#只統計資料型資料

df.shape

2.去除前後空格

3.重複值處理

df.duplicated(

)#返回bool資料,所有的資料都相等

df.duplicated().

sum(

)#返回重複值的數目

df[df.duplicated()]

# 返回所有重複值的記錄

###刪除重複值###

df.drop_duplicates(

)#只在顯示上修改

df.drop_duplicates(inplace=

true

)#在原始資料上修改

在刪除資料後需要對原資料的索引進行重新排序

#索引重置

range

(df.shape[0]

)df.index=

range

(df.shape[0]

)

4.異常值處理

df.describe(

).t #資料描述

用三倍標準差測量,若超過則異常

#(資料-平均值)/方差

sta=

(df[

'行駛萬公里'

]-df[

'行駛萬公里'

].mean())

/df[

'行駛萬公里'

].std(

)#print(sta)

sta.

abs(

)>

3#bool索引

df[sta.

abs(

)>3]

#定位###刪除異常值###

df.drop(df[sta.

abs(

)>3]

.index)

df.drop(df[sta.

abs(

)>3]

.index,inplace=

true

)#在原資料上操作

df.shape

5.缺失值處理

df.isnull() #檢視缺失值

df.notnull() #檢視非缺失值

df.dropna() #刪除缺失值

df.fillna() #填補缺失值

df.isnull(

)df.isnull().

sum(

)#返回每一列缺失值的數目

df[df.行駛萬公里.isnull()]

df[df.上牌時間.isnull()]

###缺失值填充###

round

(df[

'行駛萬公里'

].mean(),

1)#保留1位小數

round

(df[

'行駛萬公里'

].median(),

1)#均值填充

#df['行駛萬公里'].fillna(round(df['行駛萬公里'].mean(),1))

#中位數填充

#df['行駛萬公里'].fillna(round(df['行駛萬公里'].median(),1))

#df[' 行駛萬公里'].fillna(method='bfill') #後乙個值填充

#df[' 行駛萬公里'].fillna(method='ffill') #前乙個值填充

df['行駛萬公里'

].fillna(

round

(df[

'行駛萬公里'

].mean(),

1),inplace=

true

)

缺失值刪除

df.drop(df[df.上牌時間.isnull()]

.index)

df.drop(df[df.行駛萬公里.isnull()]

.index)

df.isnull().

sum(

)

6.增加屬性

7.合併兩個表

df1=pd.read_csv(

'd:/資料/l.txt'

)print

(df1)

df2=pd.read_csv(

'd:/資料/l2.txt'

)print

(df2)

df=pd.concat(

[df1,df2]

,axis=1)

#橫向連線表

print

(df)

df=pd.concat(

[df1,df2]

,axis=0)

#縱向連線表

print

(df)

資料清洗之資料清洗概述

從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...

excel資料清洗 資料清洗excel

資料清洗與加工 目的 獲得具備準確性 完整性和一致性符合分析質量的資料。資料處理第一步 資料清洗 1 資料去重 方式1 刪除重複項功能。適用於有重複項出現的列,並且這樣的重複無意義,比如標識列。操作 資料 選項卡下的 刪除重複值 按鈕 方式2 排序刪除重複項。適用於需要人工判斷無用重複項的資料,即將...

資料清洗技術 Excel資料清洗

1 了解 excel 的基本功能和用途 2 掌握 excel 資料清洗的基本步驟 3 了解 excel 資料清洗的方法 4 掌握 excel 常用的資料分析函式 5 掌握 excel 資料清洗常用的函式 作業系統 windows xp 7 8 10 excel版本 2007 2019 jdk版本 1...