drop_duplicates(subset=[『comment』], keep=『first』, inplace=true)引數:
✪ 栗子 ✪
首先建立乙個dataframe
。
使用drop_duplicates
來去除重複值,如果不指明subset
,那麼預設根據所有列來考慮,即當某兩行資料所有列都重複時進行去重。
subset
預設為none
,根據所有列考慮,1
,2
行雖然comment
相同,但name
不相同,故保留,使用時根據具體情況進行選擇。
現在設定subset
為comment
即可刪除該列重複值。
注意:此時索引沒有重置,如有需要可使用reset_index()
重置索引。
pandas 資料去重
讀取csv格式的資料 df pd.read csv data imdb movie data.csv 去重 統計導演的人數 法1 director count1 len set df director tolist print director count1 去重 統計導演的人數 法2 direct...
Pandas 資料去重
drop duplicats 方法去重 對 dataframe 資料去重 示例 df.drop duplicats subset month day time keep last inplace true drop duplicats引數說明 引數subset subset用來指定特定的列,預設所有...
pandas去重方法
資料去重可以使用duplicated 和drop duplicates 兩個方法。dataframe.duplicated subset none,keep first 返回boolean series表示重複行 引數 subset 列標籤或標籤序列,可選 僅考慮用於標識重複項的某些列,預設情況下使...