資料去重可以使用duplicated()和drop_duplicates()兩個方法。
dataframe.duplicated(subset = none,keep =『first』 )返回boolean series表示重複行
引數:
subset:列標籤或標籤序列,可選
僅考慮用於標識重複項的某些列,預設情況下使用所有列
keep:,預設』first』
importnumpy as np
import
pandas as pd
from pandas import
series, dataframe
df = pd.read_csv('
./demo_duplicate.csv')
(df)
print(df['
seqno
'].unique()) #
[0. 1.]
#使用duplicated 檢視 重複值
#引數 keep 可以標記重複值
print(df['
seqno
'].duplicated())
'''0 false
1 true
2 true
3 true
4 false
name: seqno, dtype: bool
'''#
刪除 series 重複資料
print(df['
seqno
'].drop_duplicates())
'''0 0.0
4 1.0
name: seqno, dtype: float64
'''#
刪除 dataframe 重複資料
print(df.drop_duplicates(['
seqno
'])) #
按照 seqno 來 去重
'''price seqno symbol time
'''#
drop_dujplicates() 第二個引數 keep 包含的值 有: first、last、false
print(df.drop_duplicates(['
seqno
'], keep='
last
')) #
儲存最後乙個
'''price seqno symbol time
'''
pandas 資料去重
讀取csv格式的資料 df pd.read csv data imdb movie data.csv 去重 統計導演的人數 法1 director count1 len set df director tolist print director count1 去重 統計導演的人數 法2 direct...
Pandas 資料去重
drop duplicats 方法去重 對 dataframe 資料去重 示例 df.drop duplicats subset month day time keep last inplace true drop duplicats引數說明 引數subset subset用來指定特定的列,預設所有...
pandas根據某列去重
drop duplicates subset comment keep first inplace true 引數 栗子 首先建立乙個dataframe。使用drop duplicates來去除重複值,如果不指明subset,那麼預設根據所有列來考慮,即當某兩行資料所有列都重複時進行去重。subse...