(3)pandas 缺失資料處理

2022-04-23 18:28:53 字數 1121 閱讀 9080

右擊桌面上選擇【open in terminal】 開啟終端。

在彈出的終端中輸入【ipython】進入python的直譯器中,如圖1所示。

圖1 ipython直譯器匯入實驗常用的python包。如圖2所示。

【import pandas as pd】pandas用來做資料處理。

【import numpy as np】numpy用來做高維度矩陣運算.

【import matplotlib.pyplot as plt】matplotlib用來做資料視覺化。

圖2 匯入所需要的包生成實驗所需要的資料,如圖3所示。

【dates = pd.date_range(『20170101』,』20170106』)】生成6個索引

【df = pd.dataframe(np.random.randn(6,4),index=dates,columns=list(『abcd』))】生成初始資料

【df.loc[dates[0],』b』] = np.nan】設定第一行b列為空

【df.loc[dates[3:5],』d』] = np.nan】設定第4至6行d列為空

【df】檢視生成的資料

圖3 生成資料

dropna()函式同樣會丟掉所有含有空元素的資料,如圖4所示。

【df.dropna()】丟失掉含有空元素的資料

【df.dropna(how=』any』)】等同於上條命令

【df.loc[dates[5]] = np.nan】設定最後一行書據為空

【df】檢視生成的資料

【df.dropna(how=』all』)】只有所有資料為空時才會丟棄

圖4 資料過濾1

如果想以同樣的方式按列丟棄,可以傳入axis=1,如圖5所示

【df[『e』] = np.nan】 增加一全部為空的列

【df】檢視生成的資料

【df.dropna(how=』all』,axis=1)】列資料都為空時丟棄

圖5 資料過濾2對缺失值進行填充,如圖6所示。

【df】檢視資料

【df.filna(0)】對缺失部分用0填充

【df.fillna()】傳入乙個字典,對不同的列填充

【pd.isnull(df)】布林填充,是否為空

圖6 缺失值填充

Pandas 處理缺失資料

import numpy as np import pandas as pd from pandas import series,dataframes series a b np.nan,c d pd.isnull s 0 false 1 false 2 true 3 false 4 false d...

pandas處理缺失資料

na處理方法 方法 說明 dropna 根據各標籤的值中是否存在缺失資料對軸標籤進行過濾,可通過閾值調節對缺失值得容忍度 fillna 用指定值或插值方法 如ffill和bfill 填充缺失資料 isnull 返回乙個含有布林值的物件,這些布林值表示哪些值是缺失值na,該物件的型別與源型別一樣 no...

pandas 資料處理

pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...