pandas是為了解決資料分析任務而建立的,納入了大量庫和一些標準的資料模型。在python環境下我們經常會使用到pandas去進行資料統計,而dataframe簡單的描述成資料框,是一種組織方式,我們看看如何使用dataframe。
1、首先引入pandas和numpy兩個包,pandas依賴於numpy。
import numpy as np
import pandas as pd
建立乙個時間索引,索引即每一行資料的id,為唯一值。
date=pd.date_range('20170401',periods=6)
print(date)
結果為:
datetimeindex(['2017-04-01', '2017-04-02', '2017-04-03', '2017-04-04',
'2017-04-05', '2017-04-06'],
dtype='datetime64[ns]', freq='d')
2、建立6*4的資料,random用於建立隨機數,引數表示行數和列數,date是上面建立的索引列。
df=pd.dataframe(np.random.randn(6,4),index=date,columns=list('abcd'))
print(df)
結果為:
a b c
d2017-04-01 -1.174146
0.981851
0.054070 -0.304046
2017-04-02 -0.670757 -0.621248 -0.320604 -0.368905
2017-04-03 -0.008907
0.288560 -0.086716
1.601499
2017-04-04 -0.903410 -0.884107 -0.125471 -0.032931
2017-04-05 -0.589219 -0.561077 -0.994943 -0.001721
2017-04-06
1.503975
1.008683
0.631483 -0.713936
3、可以使用dtypes檢視各行的資料格式
print(df.dtypes)
a float64
b float64
c float64
d float64
dtype: object
4、使用head檢視前幾行的資料(預設前5行)
df.head()
#檢視前3行
df.head(3)
使用tail檢視後幾行的資料,使用同head。
5、檢視資料框的索引(index)、列名(columns)、資料值(values)、描述性(describe)
df.index/df.columns/df.values/df.describe
6、使用t進行轉置資料,即行列轉換。
df.t
2017-04-01
2017-04-02
2017-04-03
2017-04-04
2017-04-05
2017-04-06
a -1.056570 -1.314146 -0.882650 -0.081214 -0.061534 -0.558024
b 0.221840
0.915488 -0.689384 -0.707948
0.791983 -0.300867
c -0.572469 -0.987231 -1.123992
0.332304 -0.476678 -0.409462
d0.582291
0.012441
0.834482 -0.665694
0.765196 -0.020418
7、使用sort進行資料排序
df.sort(columns='a')
a b c
d2017-04-05 -0.799361 -0.591627 -0.367348
0.268359
2017-04-04 -0.397003 -0.758888 -2.324696
1.310242
2017-04-01 -0.295905 -0.396839 -1.106580
1.013233
2017-04-03 -0.139464 -0.034839 -0.203179 -1.438849
2017-04-02
0.326524
0.922449
0.199526
0.217041
2017-04-06
0.376355
0.259185 -1.090140
0.060581
Pandas統計分析基礎之DataFrame
3 更改dataframe中的資料 4 增加dataframe中的資料 刪除dataframe中的資料 dataframe類似於資料庫的表或者excel的 panda將資料讀取之後,以dataframe的資料結構儲存在記憶體中。下面就來介紹一下dataframe的增刪查改操作。因為dataframe...
Pandas 快速入門
pandas其實很簡單,共有三種資料結構。其中一維為series,二維為dataframe,三維為panel.先說series,numpy陣列,python列表等都可以生成series。它的結構分為兩部分,索引和值。獲取索引的方式為 index 方法,獲取值得方式為values 方法。而資料框又多乙...
pandas入門 十一
跟series中的值一樣,軸標籤也可以通過函式或對映進行轉換,從而得到乙個新的不同標籤的物件。軸還可以被就地修改,而無需新建乙個資料結構。跟series一樣,軸索引也有乙個map方法 將其賦值給index,這樣就可以對dataframe進行就地修改 想要建立資料集的轉換版 而不是修改原始資料 比較實...