# -*- coding: utf-8 -*-
#1. 概念:把資料結構中,行相同的資料只保留一行。
# 語法: drop_duplicates 該方法返回乙個去重後的資料框物件
from pandas import read_csv
df = read_csv("d:/python/workspace/pythonstudy/8.csv")
#找出行重複的位置(索引值)
dindex = df.duplicated() #返回一列布林值。如果某行資料沒有出現過,則返回false,否則返回true
#找出列重複位置
dindex = df.duplicated('id') #返回id這一列重複的位置
dindex = df.duplicated(['id','key']) #這兩列同時重複的位置
#根據上面的返回值,把重複資料提取出來
df[dindex]
#刪除重複值
#預設根據所有的列,進行刪除(當某兩行所有列的資料都重複時,會刪除其中一行)
newdf = df.drop_duplicates()
#當然也可以指定某一列或多列,進行重複值刪除
newdf = df.drop_duplicates("id")
newdf = df.drop_duplicates(["id","key"])
python筆記8 資料處理之去除重複資料
coding utf 8 1.概念 把資料結構中,行相同的資料只保留一行。語法 drop duplicates 該方法返回乙個去重後的資料框物件 from pandas import read csv df read csv d python workspace pythonstudy 8.csv ...
資料清洗學習之重複資料處理
資料處理 一 重複資料的處理 1 函式法 countif range,criterial range 要計數的單元格範圍 criterial 計算條件 eg a列 員工編號 b列 每個員工編號出現的次數 c列 查詢出現兩次及其以上的重複項,以c9為例,即表示a466074從a1到a9是第3次重複出現...
SQL去除重複資料
sql中去除完全相同資料可以用distinct關鍵字,任意欄位去重可以用group by,以下面的資料表為例。idname score1小王 512小魏613小張 714小李515小王 51 1.存在兩條完全相同的紀錄,用關鍵字distinct就可以去掉 select distinct from t...