DataFrame學習三 資料清洗

2022-06-25 21:42:14 字數 594 閱讀 6512

3.1 去重

data.duplicated() #標記出哪些是重複的(true)

data.drop_duplicates()#直接將重複刪除,預設保留第一條

3.2 處理缺失資料

data.dropna()# 預設為整行刪除

data.dropna(how='all',axis=1,inplace=true)# how=all,是當整行全是na的時候才進行刪除

​data.fillna()#第二列全部替換為2, 第三列全部替換為3

3.3 異常值檢測

(1) 通過邏輯判斷來檢測資料情況

frame2[frame2['year']>2001]

(2) 把異常的資料替換成0

# 將age的6、158替換成缺失

data_nodup['age'].replace([158, 6], np.nan)

​# 將package的-9替換成0

data_nodup['package'].replace(-9, 0)​​

DataFrame資料合併

一 join 作用 預設情況下,他是把行索引相同的資料合併到一起 注意 以左為準,沒有的部分用nan補全 例子import pandas as pd import numpy as np df1 pd.dataframe data np.zeros 2,5 index list ab columns...

Python學習筆記 DataFrame

dataframe的基本特徵 1 是乙個 型資料結構 2 含有一組有序的列 3 大致可看成共享同乙個index的series集合 import pandas as pd data frame pd.dataframe data frame name pay 0 wangdachui 4000 1 l...

DataFrame學習二 DataFrame的性質

2.1 索引 切片 資料集 data frame2 pd.dataframe data,index one two three four five columns year state pop debt 返回一列資料 frame2 year 返回多列多行 返回兩行 frame2 two three ...