如何在DataFrame中通過索引高效獲取資料?

2021-10-08 07:47:50 字數 3050 閱讀 2963

今天是pandas資料處理專題的第四篇文章,我們一起來聊聊dataframe中的索引。

資料對齊

我們可以計算兩個dataframe的加和,pandas會自動將這兩個dataframe進行資料對齊,如果對不上的資料會被置為nan(not a number)。

首先我們來建立兩個dataframe:

import numpy as np

import pandas as pd

df1 = pd.dataframe(np.arange(9).reshape((3, 3)), columns=list(『abc』), index=[『1』, 『2』, 『3』])

df2 = pd.dataframe(np.arange(12).reshape((4, 3)), columns=list(『abd』), index=[『2』, 『3』, 『4』, 『5』])

得到的結果和我們設想的一致,其實只是通過numpy陣列建立dataframe,然後指定index和columns而已,這應該算是很基礎的用法了。

然後我們將兩個dataframe相加,會得到:

我們發現pandas將兩個dataframe加起來合併了之後,凡是沒有在兩個dataframe都出現的位置就會被置為nan。這其實是很有道理的,實際上不只是加法,我們可以計算兩個dataframe的加減乘除的四則運算都是可以的。如果是計算兩個dataframe相除的話,那麼除了對應不上的資料會被置為nan之外,除零這個行為也會導致異常值的發生(可能不一定是nan,而是inf)。

fill_value

如果我們要對兩個dataframe進行運算,那麼我們當然不會希望出現空值。這個時候就需要對空值進行填充了,我們直接使用運算子進行運算是沒辦法傳遞引數進行填充的,這個時候我們需要使用dataframe當中為我們提供的算術方法。

dataframe當中常用的運算子有這麼幾種:

add、sub、div這些我們都很好理解,那麼這裡的radd、rsub方法又是什麼意思呢,為什麼前面要加上乙個r呢?

看起來費解,但是說白了一文不值,radd是用來翻轉引數的。舉個例子,比如說我們希望得到dataframe當中所有元素的倒數,我們可以寫成1 / df。由於1本身並不是乙個dataframe,所以我們不能用1來呼叫dataframe當中的方法,也就不能傳遞引數,為了解決這種情況,我們可以把1 / df寫成df.rdiv(1),這樣我們就可以在其中傳遞引數了。

由於在算除法的過程當中發生了除零,所以我們得到了乙個inf,它表示無窮大。

我們可以在add、div這些方法當中傳入乙個fill_value的引數,這個引數可以在計算之前對於一邊出現缺失值的情況進行填充。也就是說對於對於只在乙個dataframe中缺失的位置會被替換成我們指定的值,如果在兩個dataframe都缺失,那麼依然還會是nan。

我們對比下結果就能發現了,相加之後的(1, d), (4, c)以及(5, c)的位置都是nan,因為df1和df2兩個dataframe當中這些位置都是空值,所以沒有被填充。

fill_value這個引數在很多api當中都有出現,比如reindex等,用法都是一樣的,我們在查閱api文件的時候可以注意一下。

那麼對於這種填充了之後還出現的空值我們應該怎麼辦呢?難道只能手動找到這些位置進行填充嗎?當然是不現實的,pandas當中還為我們提供了專門解決空值的api。

空值api

在填充空值之前,我們首先要做的是發現空值。針對這個問題,我們有isna這個api,它會返回乙個bool型的dataframe,dataframe當中的每乙個位置表示了原dataframe對應的位置是否是空值。

dropna

當然只是發現是否是空值肯定是不夠的,我們有時候會希望不要空值的出現,這個時候我們可以選擇drop掉空值。針對這種情況,我們可以使用dataframe當中的dropna方法。

我們發現使用了dropna之後,出現了空值的行都被拋棄了。只保留了沒有空值的行,有時候我們希望拋棄是的列而不是行,這個時候我們可以通過傳入axis引數進行控制。

這樣我們得到的就是不含空值的列,除了可以控制行列之外,我們還可以控制執行drop的嚴格程度。我們可以通過how這個引數來判斷,how支援兩種值傳入,一種是』all』,一種是』any』。all表示只有在某一行或者是某一列全為空值的時候才會拋棄,any與之對應就是只要出現了空值就會拋棄。預設不填的話認為是any,一般情況下我們也用不到這個引數,大概有個印象就可以了。

fillna

pandas除了可以drop含有空值的資料之外,當然也可以用來填充空值,事實上這也是最常用的方法。

我們可以很簡單地傳入乙個具體的值用來填充:

fillna會返回乙個新的dataframe,其中所有的nan值會被替換成我們指定的值。如果我們不希望它返回乙個新的dataframe,而是直接在原資料進行修改的話,我們可以使用inplace引數,表明這是乙個inplace的操作,那麼pandas將會在原dataframe上進行修改。

df3.fillna(3, inplace=true)

除了填充具體的值以外,我們也可以和一些計算結合起來算出來應該填充的值。比如說我們可以計算出某一列的均值、最大值、最小值等各種計算來填充。fillna這個函式不僅可以使用在dataframe上,也可以使用在series上,所以我們可以針對dataframe中的某一列或者是某些列進行填充:

除了可以計算出均值、最大最小值等各種值來進行填充之外,還可以指定使用缺失值的前一行或者是後一行的值來填充。實現這個功能需要用到method這個引數,它有兩個接收值,ffill表示用前一行的值來進行填充,bfill表示使用後一行的值填充。

我們可以看到,當我們使用ffill填充的時候,對於第一行的資料來說由於它沒有前一行了,所以它的nan會被保留。同樣當我們使用bfill的時候,最後一行也無法填充。

總結今天的文章當中我們主要介紹了dataframe的一些基本運算,比如最基礎的四則運算。在進行四則運算的時候由於dataframe之間可能存在行列索引不能對齊的情況,這樣計算得到的結果會出現空值,所以我們需要對空值進行處理。我們可以在進行計算的時候通過傳入fill_value進行填充,也可以在計算之後對結果進行fillna填充。

在實際的運用當中,我們一般很少會直接對兩個dataframe進行加減運算,但是dataframe**現空置是家常便飯的事情。因此對於空值的填充和處理非常重要,可以說是學習中的重點,大家千萬注意。

Python如何在DataFrame增加數值

這篇文章主要介紹程式設計客棧了python如何在dataframe增加數值,文中通過示例 介紹的非常詳細,對www.cppcns.com大www.cppcns.com家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下 生成乙個 syyqphdyizdataframe import pand...

如何在IAR中通過Watch視窗觀察區域性變數的值

最近在用430開發一款產品,在軟體除錯的時候發現watch視窗中無法觀察區域性變數的值,總是顯示,下面通過乙個簡答的例子說明一下現象 include msp430g2553.h global variable unsigned char receiveglobal unsigned char add...

如何在IAR中通過Watch視窗觀察區域性變數的值

最近在用430開發一款產品,在軟體除錯的時候發現watch視窗中無法觀察區域性變數的值,總是顯示,下面通過乙個簡答的例子說明一下現象 include msp430g2553.h global variable unsigned char receiveglobal unsigned char add...