總結完了numpy庫的基礎知識,當然不能少了pandas庫,pd庫是基於numpy的,它有兩種資料形式:series和dataframe。這篇文章總結的都是對dataframe格式的資料進行操作。series的操作和對ndarray格式的操作很像,可以參照numpy的處理方法。
它們的不同有乙個博主寫的很好:series和dataframe的不同。
我的numpy庫基礎知識總結:numpy庫
pandas一般用來讀取某些**,並對其中的資料進行處理。pandas庫也可以查資料的形狀、型別和元素的型別。其方法和numpy中一樣。
import pandas as pd
food_info = pd.read_csv(
'food_info.csv'
)# 讀取csv檔案
print
(type
(food_info)
)# 列印pandas資料型別
print
(food_info.dtypes)
# 列印資料中元素的型別
print
(food_info.shape)
# 列印資料形狀
dataframe格式的資料可以通過特有的方法來顯示,常用的有:
print
(food_info.head(5)
)# 顯示前5行資料
print
(food_info.tail(3)
)# 顯示後3行資料
print
(food_info.columns)
# 列印每一列的標籤
list
= food_info.columns.to_list(
)#將所有列名儲存為列**式
pandas中通過索引來取資料,分為按行、列取索引。按行取資料要用.loc[ ]方法,按列取資料則可以直接索引列的名稱。
要注意的是,取多行、多列要麼是用切片的方式,要麼將行列的索引打包為乙個列表。
print
(food_info.loc[0]
)# 取第0行資料
print
(food_info.loc[[0
,1]]
)# 取第0,1行資料
print
(food_info.loc[3:
6])# 取第3-6行資料(包含6行)
print
(food_info[
'ndb_no'])
# 通過列名來取一列
print
(food_info[
['ndb_no'
,'shrt_desc']]
)# 通過列名來取兩列
print
(food_info[1:
3])# 通過切片來取兩列
print
(food_info.loc[3,
'ndb_no'])
# 通過行號和列名來取某一元素
也可以對資料進行取極值等基本操作,方法和numpy中比較相似,但是要加上對某一列的索引。
food_info[
'ndb_no'].
max(
)# 對ndb_no列取最大值
food_info[
'ndb_no'].
min(
)# 對ndb_no列取最小值
有些**中會有缺失值(nan),所以要對這些缺失值進行操作,pandas中給出了一些方法來處理。
a = food_info[
'shrt_desc'
]pd.isnull(a)
# 判斷是否有缺失值
a.dropna(axis=0)
# 刪除缺失值所在的行
a.fillna(method=
'ffill'
)# 使用前乙個值來填充缺失值
a.fillna(method=
'bfill'
)# 使用後乙個值來填充缺失值
python庫 Pandas學習筆記
food info pandas.read csv 檔名 讀取csv檔案 print type food info 顯示food info的型別,csv檔案的型別是dataframe print food info.dtypes 顯示每一列的特徵儲存的是什麼型別,可以看到在csv檔案中,str型別被...
python下pandas庫的學習
python中的pandas模組進行資料分析。接下來pandas介紹中將學習到如下8塊內容 1 資料結構簡介 dataframe和series 2 資料索引index 3 利用pandas查詢資料 4 利用pandas的dataframes進行統計分析 5 利用pandas實現sql操作 6 利用p...
pandas庫學習記錄
在接觸了一點python的資料分析後,發現有乙個眾人很推崇的pandas庫。據說,與numpy結合能夠實現許多強大的使資料分析功能。但其實在接觸一段時間之後,我發現,還是很難掌握這個庫的精髓。為了避免長時間遺忘,我把這一系列實踐記錄下來。引用 import pandas 一般都寫作 import p...