幾個pandas資料處理中的常用操作

2021-07-09 08:39:09 字數 1336 閱讀 5023

記幾個常用的函式,具體用法去官網查啦

import的慣例:

import pandas as pd

from pandas import series,dataframe

顯示一些數字特徵:

df.describe()#顯示很多,均值,標準差,分位數等等

df.quantile(0.75)#顯示3/4分位數

df.std()#顯示標準差,樣本標準差?

讀取存在csv中的dataframe,,還有把series,dataframe存為csv:

pd.read_table()#讀table分割的,但是有時不管用= =,還不清楚為什麼
pd.read_csv()
df.to_csv('xx.csv')
操作一列資料,這是把num列的格式轉為int

去重,直接呼叫只是返回乙個檢視,要賦值才能覆蓋原來的列,pandas許多時候都是這種情況

df['num'].drop_duplicates()
重要的groupby,下面這條的意思是取每個星期week()的總數(相同week的count之和(sum)),具體現在還不清楚,只會算個平均數求個和:

week_count = df['count'].groupby(df['week']).sum()
groupby([df['1'],df'2'])後會出現層次化索引,把層次化索引重新安排到dataframe中需要使用unstack()方法,想回去就用stack()

df.unstack()
df.stack()
填充缺失值nan,這裡是填充成0:

df.fillna(value=0)
畫圖用plot,想畫多個圖可以用matplotlib弄個plt.subplot(x,x,x)之後畫,畫圖時用kind選擇畫什麼圖,例如:bar:柱狀圖,pie餅圖

plt.subplot(1,1,1)

df[index].plot(kind='bar',title=index)

剛看兩天,現在常用的也就這些。。

pandas把資料存到記憶體裡,很多變數可能會有memoryerror

pandas快速入門:

還有本書叫《利用python進行資料分析》

主要的是官方文件了,雖然看不懂,感覺能用就用一下

pandas資料處理之groupby的常用用法

groupby by none,axis 0,level none,as index true,sort true,group keys true,squeeze false,kwargs 用於確定groupby的組。如果by是乙個函式,那麼會呼叫物件索引的每個值。如果傳遞了乙個dict或serie...

pandas 資料處理

pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...

pandas資料處理

dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複 必須一行中所有資料都重複才算重複,只能判斷行,不能判斷列 返回series dataframe.drop duplicates subset none,keep firs...