pandas庫是乙個基於numpy庫的乙個開源python庫,用於快速分析,清洗和準備資料。
pandas中的主要兩種資料型別:
序列series:類似於一維陣列,可以用numpy中針對一維陣列的函式,也可以用標籤來進行索引,可自動對齊
資料框dataframe:多用於二維陣列,也可以用numpy中二維陣列的操作,一般我們對於二維**的操作就用它。
import pandas as pd
1.序列型pd.
series()
#自定義索引號建立
eg:字典型 pd.
series()
索引型 pd.
series([
1,2,
3,4]
,index=
['a'
,'b'
,'c'
,'d'])
第乙個引數是數值,第二個引數是索引號即可,比如第乙個引數不一定要這樣寫,也可以用np.
#不定義索引號
把上述索引型的第二個引數去掉即可,這時候它的索引號是從零開始,每次加一
當然,可以重新定義索引,直接a.index['',
'','']
2.資料框型#首先建立乙個二維陣列
import numpy as np
a=np.random.
randint(0
,2,(
4,4)
) #然後將其轉化為資料框型
pd.dataframe
(a,index=
['00'
,'01'
,'11'
,'10'
],columns=
['00'
,'01'
,'11'
,'10'])
#同樣,不寫後面的index則預設為從零開始,每次加一
結果如下
還可以從一維字典建立,個人覺得麻煩,不予介紹
1.序列型
檢視索引號 a.index
檢視全部值 a.values
查詢某個或某幾個值 a[
'索引號'
,'索引號'
,'索引號'
] a[
'索引號1'
:]#從1到結尾
a['索引號1'
:'索引號2'
]#從1到2
2.資料框型
其實與序列型差不多,只不過由一組索引號變成了兩組索引號
乙個colums是一列資料,乙個index是一行資料
檢視索引號 a.index
a.colums
檢視全部值 a.values
檢視某一列或一行 a[
'兩組索引號中的某個索引號'
]檢視某乙個值 a[
'colums中的索引號'][
'index中的索引號'
]#順序不能換
3.修改values
直接在上述查詢values的後面新增乙個』=x『,可以修改乙個或多個。
4.保留字
in
』index『 in a
#有顯示true 沒有顯示false
,注意是索引號
.get()
a.
get(index,
default
)#有則返回index對應的values的值,沒有返回default的值
當進行兩個序列或資料框的加減等操作時,會把索引號相同的資料進行相應的操作(不管你索引號的順序是怎麼樣的),當某個索引號沒有對應相同的索引號的時候,就會顯示nan,表示找不到對應的值。
運算結果預設為浮點數。
pandas庫的學習記錄(一)
通過乙個或多個鍵將行鏈結起來的。引數解釋如下 注 以下引數,個人還沒有用過,抄自 利用python進行資料分析 第二版 1 基礎例項 import pandas as pd left pd.dataframe right pd.dataframe result pd.merge left,right...
pandas庫學習記錄
在接觸了一點python的資料分析後,發現有乙個眾人很推崇的pandas庫。據說,與numpy結合能夠實現許多強大的使資料分析功能。但其實在接觸一段時間之後,我發現,還是很難掌握這個庫的精髓。為了避免長時間遺忘,我把這一系列實踐記錄下來。引用 import pandas 一般都寫作 import p...
pandas學習記錄
1.模組匯入 import pandas as pd 2.pandas序列series自動給列表加上索引 如 a 1,2,3,4 b pd.series a c enumerate a print b 類似於 for i,j in c print i,j 3.numpy 只是純碎的生成矩陣陣列,而 ...