python筆記8 資料處理之去除重複資料

# -*- coding: utf-8 -*-

#1. 概念：把資料結構中，行相同的資料只保留一行。

# 語法： drop_duplicates 該方法返回乙個去重後的資料框物件

from pandas import read_csv

df = read_csv("d:/python/workspace/pythonstudy/8.csv")

#找出行重複的位置（索引值）

dindex = df.duplicated() #返回一列布林值。如果某行資料沒有出現過，則返回false，否則返回true

#找出列重複位置

dindex = df.duplicated('id') #返回id這一列重複的位置

dindex = df.duplicated(['id','key']) #這兩列同時重複的位置

#根據上面的返回值，把重複資料提取出來

df[dindex]

#刪除重複值

#預設根據所有的列，進行刪除（當某兩行所有列的資料都重複時，會刪除其中一行）

newdf = df.drop_duplicates()

#當然也可以指定某一列或多列，進行重複值刪除

newdf = df.drop_duplicates("id")

newdf = df.drop_duplicates(["id","key"])

Python之資料處理

靠別人不如靠自己，學學學學學學學學！原資料需求 coding utf 8 txtfile aminer1.txt newtxtfile open new txtfile,w with open txtfile,r as file to read lines file to read.readlin...

python之資料處理

檔案資料讀寫的基本操作 import this 本地檔案的界定指向乙個本地儲存的檔案，是乙個連線或者乙個對映 path1 c users 11786 desktop test.txt 正斜線兩個或者反斜線乙個來用於資料路徑的表達再或者用r 寫在檔案路徑外面推薦第三種 path2 c users...

python筆記6 資料處理之匯入資料

coding utf 8 資料一般儲存在檔案 csv txt excel 和資料庫中 1.匯入csv檔案第一行是列名 from pandas import read csv 檔案的編碼格式也應該是 utf 8 才行，否則報錯 df read csv d python workspace pytho...

python筆記8 資料處理之去除重複資料

Python之資料處理

python之資料處理

python筆記6 資料處理之匯入資料

相關推薦