python DataFrame缺失值填充2

2021-10-19 04:26:11 字數 847 閱讀 5025

在做具體的分析工作的時候,訓練集中往往既存在分類變數又存在連續變數,且因各種各樣的原因,資料中存在大量的缺失,給後期的建模工作帶來麻煩,現在把自己打磨好的缺失值補充函式總結在此,為後續的使用提供方便。

#### 用均值填充其連續型的缺失值,用眾數填充分類變數的缺失值

defdatadealnan

(df_data)

:# o_index 連續型變數名稱; c_index:離散型變數名稱

o_index , c_index = distinguish_char_num(df_data)

## 對離散型變數用眾數進行填充缺失

for col_name in c_index:

## 需要注意的是分類變數的mode()取值為pandas.core.series.series型別,需要提取才可以使用

df_data[col_name]

= df_data[col_name]

.fillna(df_data.loc[df_data[col_name]

.isnull()==

false

,col_name]

.mode()[

0])## 對數值型變數的空值用均值填充

for col_name in o_index:

df_data[col_name]

= df_data[col_name]

.fillna(df_data.loc[df_data[col_name]

.isnull()==

false

,col_name]

.mean())

return df_data

python DataFrame合併方法

python 合併dataframe方法 dataframe.merge left,right,how inner on none,left on none,right on none,left index false,right index false,sort false,suffixes x ...

python dataframe數值替換

需求 將csv檔案中的值為 8888的因子值替換為當日全市場因子的中值 原始資料 解析 實現 import pandas as pd def filter2median invalid number with open r c users administrator documents wechat...

Python Dataframe 兩列相除

import pandas as pd df pd.read csv 離線資料.csv 新建乙個dataframe df data pd.dataframe columns 總數 人數 平均值 df data 總數 人數 df df data 平均值 df data.lambda x x 總數 x ...