pandas去重方法

資料去重可以使用duplicated()和drop_duplicates()兩個方法。

dataframe.duplicated（subset = none，keep =『first』）返回boolean series表示重複行

引數：

subset：列標籤或標籤序列，可選

僅考慮用於標識重複項的某些列，預設情況下使用所有列

keep：，預設』first』

import
numpy as np
import
pandas as pd
from pandas import
series, dataframe
df = pd.read_csv('
./demo_duplicate.csv')
print
(df)
print(df['
seqno
'].unique()) #
[0. 1.]
#使用duplicated 檢視 重複值
#引數 keep 可以標記重複值 
print(df['
seqno
'].duplicated())
'''0    false
1     true
2     true
3     true
4    false
name: seqno, dtype: bool
'''#
刪除 series 重複資料
print(df['
seqno
'].drop_duplicates())
'''0    0.0
4    1.0
name: seqno, dtype: float64
'''#
刪除 dataframe 重複資料
print(df.drop_duplicates(['
seqno
'])) #
按照 seqno 來 去重
'''price  seqno symbol        time
'''#
drop_dujplicates() 第二個引數 keep 包含的值 有： first、last、false
print(df.drop_duplicates(['
seqno
'], keep='
last
')) #
儲存最後乙個
'''price  seqno symbol        time
'''

pandas 資料去重

讀取csv格式的資料 df pd.read csv data imdb movie data.csv 去重統計導演的人數法1 director count1 len set df director tolist print director count1 去重統計導演的人數法2 direct...

Pandas 資料去重

drop duplicats 方法去重對 dataframe 資料去重示例 df.drop duplicats subset month day time keep last inplace true drop duplicats引數說明引數subset subset用來指定特定的列，預設所有...

pandas根據某列去重

drop duplicates subset comment keep first inplace true 引數栗子首先建立乙個dataframe。使用drop duplicates來去除重複值，如果不指明subset，那麼預設根據所有列來考慮，即當某兩行資料所有列都重複時進行去重。subse...

pandas去重方法

pandas 資料去重

Pandas 資料去重

pandas根據某列去重

相關推薦