pandas中DataFrame檢測重複值的實現

2022-09-25 14:42:11 字數 1347 閱讀 4994

本文詳解如何使用pandas檢視dataframe的重複資料判斷是否重複,以及如何去重

dataframe.duplicated(subset=none, keep='first')

subset:如果你認為幾個字段重複,則資料重複,就把那幾個欄位以列表形式放到subset後面。預設是所有字段重複為重複資料。

keep:

下面舉例

df = pd.dataframe()

d程式設計客棧f

# 預設為keep="first",第一條重複的為false,後面重複的為true

# 一般不會設定keep,保持keep為預設值。

df.duplicated()

結果0 false

1 true

2 false

3 false

4 false

dtype: bool

# keep="last",,最後一條重複的為false,後面重複的為true

df.duplicated(keep="last")

結果0 true

1 false

2 false

3 false

4 false

dtype: bool

# keep=false,,所有重複的為true

df.duplicated(keep=false)

結果0 true

1 true

2 false

3 false

4 false

dtype: bool

# sub是子,subset是子集

# 標記只要brand重複為重複值。

df.duplicated(subset='brand')

結果0 false

1 程式設計客棧 true

www.cppcns.com2 false

3 true

4 true

dtype: bool

# 只要brand重複brand和style重複的為重複值。

df.duplicated(subset=['brand','style'])

結果0 false

1 true

2 false

3 false

4 true

dtype: bool

# 顯示重覆記錄,通過布林索引

df[df.duplicated()]

# 查詢重複值的個數。

df.duplicated().sum()

結果1

pandas中dict和dataFrame互轉

pd.dataframe dict a 使用df.to dict 缺省會把key和值分開 引數 dict 預設 list series split records index 如果是list dict 這種巢狀情況轉的df,迴轉需要使用records 拿上面的資料舉例,df b a b c 0 0 ...

pandas中的資料結構 DataFrame

型的資料結構 修改某一行 frame.values 0 d 2 frame name1 pay2 x d 2 y b 6000 z c 9000 修改某一行的值 frame.values 1 1 9000 frame name1 pay2 x d 2 y b 9000 z c 9000 獲取某行資料...

pandas的資料結構之DataFrame

dataframe是乙個 型的資料結構,它含有一組有序的列,每列可以是不同資料型別的資料。dataframe既有行索引也有列索引,可以將它看作為乙個由series組成的字典 共用同乙個索引 dataframe中的資料是以乙個或多個二維塊儲存的,而不是列表 字典或別的一維資料結構。a 通過字典建立,字...