有時候,用於處理的資料可能是分塊儲存的,有可能儲存在多個檔案中。這時候,就需要使用連線方法pd.concat()進行連線。
concat()方法需要指定軸,預設是y軸連線,如果需要x軸連線,可以指定axis=1。
concat使用的是等值連線,鍵預設為第一列,也可以指定。如果兩列表資料沒有共同的列,也會成功進行縱向連線,缺失資料會記為nan
接下來學習stack函式,這個函式可以將dataframe這個二維表表示為乙個巢狀的series,其實就類似於二維陣列在記憶體中的儲存,先存行,再存列。
再來看看另乙個非常強大的功能groupby,用於進行統計。
groupby之後,相當於就是把源資料中大量的資料變成了幾個組的資料。但是,groupby使用之後,獲取的並不是dataframe物件,而是乙個中間物件dataframegroupby物件。為什麼不是直接獲取結果,因為dataframegroupby物件並沒有捨棄原始資料,而是在原始資料中加入了分組資訊。
dataframegroupby物件的子物件也是dataframegroupby物件,而且,這種物件是無法輸出的,無論是使用print,還是直接在除錯終端輸入。
當對dataframegroupby物件使用mean方法時,程式才會開始計算每組的平均值,然後再轉換為dataframe物件。
不即時運算而是生成中間物件的原因,就是因為這個中間物件還能進行很多種類的數值計算,比如求和。還有agg。
agg操作,就是為dataframegroupby的各列每列指定乙個處理方法,比如a列求乙個中位數,b列求乙個平均數等等。
groupby也可以使用一組列作為輸入,此時,轉換為的資料就會以多維表來進行表示。
組合起來,就可以計算最大存活率。
Pandas學習打卡
import numpy as np import pandas as pd df pd.read csv f data drugs.csv index col state county sort index result pd.pivot table df,index state county s...
pandas學習之缺失資料
今天總結下缺失資料處理心得。在拿到資料 拼接資料 彙總資料時,一定要使用df.isna sum 或df.isna mean 觀察是否存在缺失資料,後乙個方法還可以檢測出缺失資料佔比。我今天在使用groupby彙總資料時,忘記檢視缺失資料,導致結果不全,白白浪費1個小時時間 因時間關係,我就簡單講解下...
Pandas學習之文字資料
import numpy as np import pandas as pd pd.series 1 1 0 1 1 1 dtype object 上面的資料型別為 object,將其轉化為string型別 pd.series 1 1 astype str astype string 0 1 1 1...