本文詳解如何使用pandas檢視dataframe的重複資料判斷是否重複,以及如何去重
dataframe.duplicated(subset=none, keep='first')
subset:如果你認為幾個字段重複,則資料重複,就把那幾個欄位以列表形式放到subset後面。預設是所有字段重複為重複資料。
keep:
下面舉例
df = pd.dataframe()
d程式設計客棧f
# 預設為keep="first",第一條重複的為false,後面重複的為true
# 一般不會設定keep,保持keep為預設值。
df.duplicated()
結果0 false
1 true
2 false
3 false
4 false
dtype: bool
# keep="last",,最後一條重複的為false,後面重複的為true
df.duplicated(keep="last")
結果0 true
1 false
2 false
3 false
4 false
dtype: bool
# keep=false,,所有重複的為true
df.duplicated(keep=false)
結果0 true
1 true
2 false
3 false
4 false
dtype: bool
# sub是子,subset是子集
# 標記只要brand重複為重複值。
df.duplicated(subset='brand')
結果0 false
1 程式設計客棧 true
www.cppcns.com2 false
3 true
4 true
dtype: bool
# 只要brand重複brand和style重複的為重複值。
df.duplicated(subset=['brand','style'])
結果0 false
1 true
2 false
3 false
4 true
dtype: bool
# 顯示重覆記錄,通過布林索引
df[df.duplicated()]
# 查詢重複值的個數。
df.duplicated().sum()
結果1
pandas中dict和dataFrame互轉
pd.dataframe dict a 使用df.to dict 缺省會把key和值分開 引數 dict 預設 list series split records index 如果是list dict 這種巢狀情況轉的df,迴轉需要使用records 拿上面的資料舉例,df b a b c 0 0 ...
pandas中的資料結構 DataFrame
型的資料結構 修改某一行 frame.values 0 d 2 frame name1 pay2 x d 2 y b 6000 z c 9000 修改某一行的值 frame.values 1 1 9000 frame name1 pay2 x d 2 y b 9000 z c 9000 獲取某行資料...
pandas的資料結構之DataFrame
dataframe是乙個 型的資料結構,它含有一組有序的列,每列可以是不同資料型別的資料。dataframe既有行索引也有列索引,可以將它看作為乙個由series組成的字典 共用同乙個索引 dataframe中的資料是以乙個或多個二維塊儲存的,而不是列表 字典或別的一維資料結構。a 通過字典建立,字...