1.資料描述
df.head(
)df.info(
)df.describe(
)#只統計資料型資料
df.shape
2.去除前後空格
3.重複值處理
df.duplicated(
)#返回bool資料,所有的資料都相等
df.duplicated().
sum(
)#返回重複值的數目
df[df.duplicated()]
# 返回所有重複值的記錄
###刪除重複值###
df.drop_duplicates(
)#只在顯示上修改
df.drop_duplicates(inplace=
true
)#在原始資料上修改
在刪除資料後需要對原資料的索引進行重新排序
#索引重置
range
(df.shape[0]
)df.index=
range
(df.shape[0]
)
4.異常值處理
df.describe(
).t #資料描述
用三倍標準差測量,若超過則異常
#(資料-平均值)/方差
sta=
(df[
'行駛萬公里'
]-df[
'行駛萬公里'
].mean())
/df[
'行駛萬公里'
].std(
)#print(sta)
sta.
abs(
)>
3#bool索引
df[sta.
abs(
)>3]
#定位###刪除異常值###
df.drop(df[sta.
abs(
)>3]
.index)
df.drop(df[sta.
abs(
)>3]
.index,inplace=
true
)#在原資料上操作
df.shape
5.缺失值處理
df.isnull() #檢視缺失值
df.notnull() #檢視非缺失值
df.dropna() #刪除缺失值
df.fillna() #填補缺失值
df.isnull(
)df.isnull().
sum(
)#返回每一列缺失值的數目
df[df.行駛萬公里.isnull()]
df[df.上牌時間.isnull()]
###缺失值填充###
round
(df[
'行駛萬公里'
].mean(),
1)#保留1位小數
round
(df[
'行駛萬公里'
].median(),
1)#均值填充
#df['行駛萬公里'].fillna(round(df['行駛萬公里'].mean(),1))
#中位數填充
#df['行駛萬公里'].fillna(round(df['行駛萬公里'].median(),1))
#df[' 行駛萬公里'].fillna(method='bfill') #後乙個值填充
#df[' 行駛萬公里'].fillna(method='ffill') #前乙個值填充
df['行駛萬公里'
].fillna(
round
(df[
'行駛萬公里'
].mean(),
1),inplace=
true
)
缺失值刪除
df.drop(df[df.上牌時間.isnull()]
.index)
df.drop(df[df.行駛萬公里.isnull()]
.index)
df.isnull().
sum(
)
6.增加屬性
7.合併兩個表
df1=pd.read_csv(
'd:/資料/l.txt'
)print
(df1)
df2=pd.read_csv(
'd:/資料/l2.txt'
)print
(df2)
df=pd.concat(
[df1,df2]
,axis=1)
#橫向連線表
print
(df)
df=pd.concat(
[df1,df2]
,axis=0)
#縱向連線表
print
(df)
資料清洗之資料清洗概述
從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...
excel資料清洗 資料清洗excel
資料清洗與加工 目的 獲得具備準確性 完整性和一致性符合分析質量的資料。資料處理第一步 資料清洗 1 資料去重 方式1 刪除重複項功能。適用於有重複項出現的列,並且這樣的重複無意義,比如標識列。操作 資料 選項卡下的 刪除重複值 按鈕 方式2 排序刪除重複項。適用於需要人工判斷無用重複項的資料,即將...
資料清洗技術 Excel資料清洗
1 了解 excel 的基本功能和用途 2 掌握 excel 資料清洗的基本步驟 3 了解 excel 資料清洗的方法 4 掌握 excel 常用的資料分析函式 5 掌握 excel 資料清洗常用的函式 作業系統 windows xp 7 8 10 excel版本 2007 2019 jdk版本 1...