Python學習 Pandas庫基礎知識

2021-10-11 00:26:43 字數 2089 閱讀 1327

總結完了numpy庫的基礎知識,當然不能少了pandas庫,pd庫是基於numpy的,它有兩種資料形式:seriesdataframe。這篇文章總結的都是對dataframe格式的資料進行操作。series的操作和對ndarray格式的操作很像,可以參照numpy的處理方法。

它們的不同有乙個博主寫的很好:series和dataframe的不同。

我的numpy庫基礎知識總結:numpy庫

pandas一般用來讀取某些**,並對其中的資料進行處理。pandas庫也可以查資料的形狀、型別和元素的型別。其方法和numpy中一樣。

import pandas as pd

food_info = pd.read_csv(

'food_info.csv'

)# 讀取csv檔案

print

(type

(food_info)

)# 列印pandas資料型別

print

(food_info.dtypes)

# 列印資料中元素的型別

print

(food_info.shape)

# 列印資料形狀

dataframe格式的資料可以通過特有的方法來顯示,常用的有:

print

(food_info.head(5)

)# 顯示前5行資料

print

(food_info.tail(3)

)# 顯示後3行資料

print

(food_info.columns)

# 列印每一列的標籤

list

= food_info.columns.to_list(

)#將所有列名儲存為列**式

pandas中通過索引來取資料,分為按行、列取索引。按行取資料要用.loc[ ]方法,按列取資料則可以直接索引列的名稱。

要注意的是,取多行、多列要麼是用切片的方式,要麼將行列的索引打包為乙個列表。

print

(food_info.loc[0]

)# 取第0行資料

print

(food_info.loc[[0

,1]]

)# 取第0,1行資料

print

(food_info.loc[3:

6])# 取第3-6行資料(包含6行)

print

(food_info[

'ndb_no'])

# 通過列名來取一列

print

(food_info[

['ndb_no'

,'shrt_desc']]

)# 通過列名來取兩列

print

(food_info[1:

3])# 通過切片來取兩列

print

(food_info.loc[3,

'ndb_no'])

# 通過行號和列名來取某一元素

也可以對資料進行取極值等基本操作,方法和numpy中比較相似,但是要加上對某一列的索引。

food_info[

'ndb_no'].

max(

)# 對ndb_no列取最大值

food_info[

'ndb_no'].

min(

)# 對ndb_no列取最小值

有些**中會有缺失值(nan),所以要對這些缺失值進行操作,pandas中給出了一些方法來處理。

a = food_info[

'shrt_desc'

]pd.isnull(a)

# 判斷是否有缺失值

a.dropna(axis=0)

# 刪除缺失值所在的行

a.fillna(method=

'ffill'

)# 使用前乙個值來填充缺失值

a.fillna(method=

'bfill'

)# 使用後乙個值來填充缺失值

python庫 Pandas學習筆記

food info pandas.read csv 檔名 讀取csv檔案 print type food info 顯示food info的型別,csv檔案的型別是dataframe print food info.dtypes 顯示每一列的特徵儲存的是什麼型別,可以看到在csv檔案中,str型別被...

python下pandas庫的學習

python中的pandas模組進行資料分析。接下來pandas介紹中將學習到如下8塊內容 1 資料結構簡介 dataframe和series 2 資料索引index 3 利用pandas查詢資料 4 利用pandas的dataframes進行統計分析 5 利用pandas實現sql操作 6 利用p...

pandas庫學習記錄

在接觸了一點python的資料分析後,發現有乙個眾人很推崇的pandas庫。據說,與numpy結合能夠實現許多強大的使資料分析功能。但其實在接觸一段時間之後,我發現,還是很難掌握這個庫的精髓。為了避免長時間遺忘,我把這一系列實踐記錄下來。引用 import pandas 一般都寫作 import p...