缺失值選擇思想和處理缺失值

import pandas as pd
from config import file
data = pd.read_csv(file, encoding='gbk')

num=data.isna().sum()
print(num)

部分列如下所示： unnamed: 0 0 custid 0 trade_no 0 bank_card_no 0 low_volume_percent 2 middle_volume_percent 2 take_amount_in_later_12_month_highest 0 trans_amount_increase_rate_lately 3 trans_activity_month 2 trans_activity_day 2 transd_mcc 2 trans_days_interval_filter 8 trans_days_interval 2 regional_mobility 2

student_feature 2998

def data_columns(column):
'檢視某一列值的分布情況'
result = data[column]
print(result.describe())

def fill_median(column):
'用中位數填充'
data[column].fillna(data[column].median(), inplace=true)
def fill_mean(column):
'用均值填充'
data[column].fillna(data[column].mean(), inplace=true)

data_columns('trans_days_interval') '''count 4752.000000 mean 21.751263 std 16.474916 min 4.000000 25% 12.000000 50% 17.000000 75% 27.000000 max 234.000000 name: trans_days_interval, dtype: float64

'''fill_median('trans_days_interval')

其中均值比中位數大的較多些，此時選擇用中位數填充。

data_columns('transd_mcc') '''count 4752.000000 mean 17.502946 std 4.475616 min 2.000000 25% 15.000000 50% 17.000000 75% 20.000000 max 42.000000 name: transd_mcc, dtype: float64

'''fill_median('transd_mcc')

其中均值和中位數差不多大，分布比較均勻，選擇用均值填充缺失值

''' count 4751.000000 mean 14.160674 std 694.180473 min 0.000000 25% 0.615000 50% 0.970000 75% 1.600000 max 47596.740000 name: trans_amount_increase_rate_lately, dtype: float64

'''其中最小值為0，最大值為 47596.74，裡面肯定有離群值，沒有及時找到離群值的填充方法

''' count 4450 unique 207 top 2018-04-14 freq 423 name: latest_query_time, dtype: object

'''

缺失值選擇思想和處理缺失值

缺失值處理

缺失值處理

缺失值處理

缺失值選擇思想和處理缺失值

缺失值處理

缺失值處理

缺失值處理

相關推薦