pandas首先明確:它是二維帶標籤陣列;且引入了索引,可以通過索引來處理資料,而numpy則需要用維度來運算元據。
乙個pandas型別的結構體,一般有兩種,series類和dataframe類,前者是用於一維資料
se = pd.series(
,index =
)###index預設是從0開始的序列
#也可用narray類作為資料建立:
se = pd.series(np.arange(
),index =
)#用range()或者表示可迭代的資料型別list()都可以
se = pd.series(
list
('abc'
),index =
)
用的最多的是dataframe二維資料型別
dl =
dt= pd.dataframe(dl,index =
['b'
,'c'
,'d'
],columns =
['two'
,'three'])
#除了上面的行列索引來建立二維陣列,還有ndarray型
dt1 = pd.dataframe(np.arange(8)
.reshape(2,4))
newc = dt.columns.insert(
0~n,'新增名稱』)
newi = dt.index.delete(
0~n)
dt = dt.reindex(colunms = newc,newi = newi,fill_value =
,method =
)#關於重新建立索引的reindex 可以參考:
若需要直接刪除某一行:
dt = dt.drop('名稱『,axis =
)# drop預設是刪除行的索引,設axis = 1,則刪除列的索引
高維資料和低維資料進行運算時,遵循「廣播原則「。具體來說:二維和一維資料與標量運算時,標量與各個陣列每一位資料進行運算; 二維資料和一維資料進行運算時,根據維度將一維資料與二維資料進行相應位置的資料的運算,如
表明若沒有指明哪個軸,預設在axis = 0維度上進行運算;
同時,nan運算後還為nan。
一般來說有兩種排序方法,第一種是根據索引名稱
dt = dt.sort_index(axis =
,ascending =
)
第二種則是根據資料values的大小
dt = dt.sort_value(by =
,axis =
,ascending =
)
為了獲得二維陣列的統計值如均值,中位數,方差,平方差,最大最小值,可以使用
series.corr(series)用於求兩個series型別的相關性
import pandas as pd
a = pd.series([1
,2,4
,8])
b = pd.series(
[0.1
,0.2
,0.3
,0.4])
print
(a.corr(b)
)
dataframe.corr(method=『pearson』, min_periods=1)
引數說明:
method:可選值為
pearson:pearson相關係數來衡量兩個資料集合是否在一條線上面,即針對線性資料的相關係數計算,針對非線性 資料便會有誤差。
pandas資料分析入門
起始時間 start time str型別 yyyy mm dd hh mm ss 結束時間 end time str型別 yyyy mm dd hh mm ss 騎行時長 trip duration int型別,秒 起始車站 start station 例如百老匯街和巴里大道 結束車站 end s...
利用Python資料分析 pandas入門(三)
obj series range 3 index a b c index obj.index index index 1 index 1 d index物件是不能被修改的 index does not support mutable operations index pd.index np.aran...
Pandas庫 資料分析處理庫
pandas 基於numpy開發,主要資料結構是 series 一維資料 與 dataframe 二維資料 主要功能 資料預處理 特徵提取get dummies 處理缺失資料 表示為 nan 插入或刪除 dataframe 等多維物件的列 繪圖 將dataframe按列繪圖plot 資料對齊 顯式地...