duplicated (處理重複資料)
對於重複資料可以檢視是否重複,除了第一次出現的。第一次都視為沒有重複。
df2.duplicated('a', keep=false)
---------------
0 true
1 true
2 true
3 true
4 true
5 false
6 false
刪除重複資料
df2.drop_duplicates('a')
預設為保留第一次出現的。keep引數last,保留最後一次的。為false全部刪除。
裡面的引數也可以是乙個列表
比如[『a』,『b』]表示a和b是乙個組。他們兩個一起沒有重複的
多個表處理
df1 = ....
df2 = ....
df3 = ....
all = [df1,df2,df3]
result = df.concat(all)
預設是將行合併起來,設定引數axis=1,合併為列
left = pd.dataframe()
right = pd.dataframe()
result = pd.merge(left, right, on='key',how='left')
引數解析:left和right為要聯合的表。on是要關聯的鍵,可以理解為excel裡面的vlooup函式。how是如何關聯。預設為inline,是去兩個表的公共值。也可以是left,right,outer(並集)。和sql裡面左連線,右鏈結,內連線類似。
也可以可以使用join
left = pd.dataframe(,
index=['k0', 'k1', 'k2'])
right = pd.dataframe(,
index=['k0', 'k2', 'k3'])
result = left.join(right,how='outer')
join是根據索引來進行合併的。
left 以left索引為主。
outer 取並集
inner 取交集
join和merge。merge是根據column也就是列來提取匹配結果。join是根據index,也就是索引,也就是行來提取匹配的。
pandas系列總結案例
現在我們有一組從2006年到2016年1000部最流行的電影資料 首先獲取匯入包,獲取資料 matplotlib inline import pandas as pd import numpy as np from matplotlib import pyplot as plt 檔案的路徑 path...
pandas學習筆記(四)
axis 1按照行處理 skipna false 不過濾掉空值 df.count 統計非nan值的數量 df key1 count df.min df.quantile q 0.75 統計分位數,引數q確定位置,預設0.5 df.sum df.median df.std df.var 分別求標準差,...
pandas學習總結一
import numpy as np import pandas as pd 二 建立excel檔案 df pd.dataframe 構造原始資料檔案 df.to excel e pythondemo demo1.xlsx 生成excel檔案,並存到指定檔案路徑下 print complete pd...