根據資料的不同情況及處理資料的不同需求,通常會分為兩種情況,一種是去除完全重複的行資料,另一種是去除某幾列重複的行資料,就這兩種情況可用下面的**進行處理。
1. 去除完全重複的行資料
data.drop_duplicates(inplace=
true
)
2. 去除某幾列重複的行資料
data.drop_duplicates(subset=
['a'
,'b'
],keep=
'first'
,inplace=
true
)
subset: 列名,可選,預設為none
keep: , 預設值 『first』
inplace:布林值,預設為false,是否直接在原資料上刪除重複項或刪除重複項後返回副本。(inplace=true表示直接在原來的dataframe上刪除重複項,而預設值false表示生成乙個副本。)
參考:
drop duplicates沒起作用的解決方案
最近在自己做乙個庫存管理系統,想用pandas的drop duplicates 方法刪除掉重複的資訊,上網搜了一下,沒找到什麼好的解決方案,於是發表一下自己的解決方案。首先我在命令列裡讀取了excel裡面的內容,可以從1看到索引為3和4的訂單重複.然後呼叫了drop duplicates方法,圖2顯...
去重與去空案例
去除資料裡面所有na 或者資料單一的列。使用的方法為迴圈,對所有的列進行判斷。columns detail.columns 取出所有的列 drop list for column in columns print column 進行去重,在一列下,資料一樣的進行去重 res detail.drop ...
字串去重 陣列去重 物件去重 巢狀去重(全)
去重這個詞,在我們程式設計師的日常中還是很常見的,字串 陣列 物件 巢狀形式的去重,各種去重應用場景,最近有空整理整理各種資料的去重方法,這裡整理的都是按照常規的資料,特殊的先不考慮,主要是看處理方法和思路。1.indexof 方法 const str asdfasd const changestr...