import pandas as pd,其中pd.series()類似與python中的字典,可傳入字典構造。支援相應的切片,若切片值為index則前後區間都包括在內:d[「123」]或者d[" 「:」 「]表示兩個index之前的全部數,顯示索引;若是數字切片,d[0:2]賊左閉右包,隱式索引。
np.dataframe()類似於兩個series進行疊加,行列都有索引。m=np.dataframe()(d為乙個series)其中,m.index放回行的標籤,m.colums返回列的標籤。其中m[「col0」]返回第一列的值,m[0]在陣列中則是返回第乙個數的值。其中,某些鍵的之不存在,pd會自動補充nan。或者時pd.dtaframe(二維陣列,[index=,clunms=])也可以建立dataframe陣列形式。
ind=np.index()可以構造出index的陣列,與numpy的array類似,唯一區別就是不要變ind[1]=2,就會報錯。
pd可以像字典一樣改變值或者輸出:d.keys(),d.items()d[「56」]=12
操作時:loc取值和索引都是顯示;iloc取值和索引都是隱式。
dataframe資料選擇方法:
data[index]#索引;data.index#屬性值
data.values#看成陣列進行按行檢視陣列資料,返回乙個二維陣列,然後就可以按照陣列進行操作
可以直接使用掩碼,對資料直接進行過濾:data[data[「index」]>100],可以與numpy結合使用,運用通用函式。
df=pd.dataframe() df.add(),df.mul()/df.multiply(),df.sub()/df.subtract(),df.mod(),df.pow()與numpy中的運算相對應。
pands對缺失值的處理:
none:型別,object型別
nan:數值型缺失值,任何操作的結果都為nan。
isnull(),notnull()進行判斷。
data.isnull()#返回對應位上的true與false,data[data.notnull()]#返回非空的資料
剔除缺失值:
data.dropna()#預設提出包含nan的一整行資料,也可以填進去引數:data.dropna(axis= ,how=「any」/「all」,thresh=)
data.fillna()#對缺失值進行填充np.dataframe( 『』』』』』』,fill_value=0)也可以進行填充data.fillna(method=「ffill"or"bfill」)#ffill:利用前面的值進行填充;bfill:利用從後往前的值進行填充。
多級索引:multiindex----data.unstack()#將多級索引快速變為普通dataframe資料結構
data.stack()#將行列索引的dataframe快速變為乙個多級索引
data.groupby(" 「)#返回乙個groupby物件,可以認為其為乙個dataframe
高效能計算:
pd.eval(」 ")#算術運算、比較運算。。。。。括號裡面需要在引號中進行,字元進行
pandas 的資料處理方法
import pandas as pd 2 讀入資料 pd.read csv filepath,param 3 檢視資料的前五行 pd.head pd.tail 檢視尾5行 4 檢視資料的一些情況 series.describe 對一列進行統計 5 刪除列 pd.drop columns,inpla...
資料處理 pandas資料處理優化方法小結
資料處理時使用最多的就是pandas庫,pandas在資料處理方面很強大,整合了資料處理和資料視覺化。pandas的視覺化使用的是matplotlib。回到主題 計算資料的某個欄位的所有值,對其欄位所有值進行運算 處理的字段資料為時間戳,需要計算該時間戳距離現在的時間,單位為天。一般方法 使用現在的...
pandas常用的資料處理方法
pandas常用操作方法 資料去重及重置索引 data1 data.drop duplicates keep first inplace false data2 data1.reset index drop true 去掉time列裡面資料是0的所在行記錄 data1 data data time ...