# -*- coding: utf-8 -*-
#1. 概念:把資料結構中,行相同的資料只保留一行。
# 語法: drop_duplicates 該方法返回乙個去重後的資料框物件
from pandas import read_csv
df = read_csv("d:/python/workspace/pythonstudy/8.csv")
#找出行重複的位置(索引值)
dindex = df.duplicated() #返回一列布林值。如果某行資料沒有出現過,則返回false,否則返回true
#找出列重複位置
dindex = df.duplicated('id') #返回id這一列重複的位置
dindex = df.duplicated(['id','key']) #這兩列同時重複的位置
#根據上面的返回值,把重複資料提取出來
df[dindex]
#刪除重複值
#預設根據所有的列,進行刪除(當某兩行所有列的資料都重複時,會刪除其中一行)
newdf = df.drop_duplicates()
#當然也可以指定某一列或多列,進行重複值刪除
newdf = df.drop_duplicates("id")
newdf = df.drop_duplicates(["id","key"])
Python之資料處理
靠別人不如靠自己,學學學學學學學學!原資料 需求 coding utf 8 txtfile aminer1.txt newtxtfile open new txtfile,w with open txtfile,r as file to read lines file to read.readlin...
python之資料處理
檔案資料讀寫的基本操作 import this 本地檔案的界定 指向乙個本地儲存的檔案,是乙個連線或者乙個對映 path1 c users 11786 desktop test.txt 正斜線兩個或者反斜線乙個來用於資料路徑的表達 再或者用r 寫在檔案路徑外面 推薦第三種 path2 c users...
python筆記6 資料處理之匯入資料
coding utf 8 資料一般儲存在檔案 csv txt excel 和資料庫中 1.匯入csv檔案 第一行是列名 from pandas import read csv 檔案的編碼格式也應該是 utf 8 才行,否則報錯 df read csv d python workspace pytho...