PYTHON 用三倍四分位間距蓋帽法處理異常值

2021-10-19 05:15:19 字數 1217 閱讀 7208

異常值的存在給建模帶來極大困擾,在模型構建之前,採用四分位間距法去掉異常值是我們常用的方法,我把**總結如下:

## del_cols:不用蓋帽法處理的列名集合

## df_data_1:待處理的資料框

defoutliersdeal

(df_data_1 , del_cols )

:import copy

df_data = copy.deepcopy(df_data_1.drop(del_cols , axis =1)

) colnames = df_data.columns.tolist(

)for col_name in colnames:

u_75 = df_data[col_name]

.quantile(q =

0.75

) u_25 = df_data[col_name]

.quantile(q =

0.25

) iqr = u_75 - u_25

df_data.loc[df_data[col_name]

> u_75 +

1.5*iqr , col_name]

= u_75 +

1.5*iqr

df_data.loc[df_data[col_name]

< u_25 -

1.5*iqr , col_name]

= u_25 -

1.5*iqr

df_data_1[col_name]

= df_data[col_name]

return df_data_1

函式的呼叫:

if __name__ ==

'__main__'

:import pandas as pd

import numpy as np

data = pd.read_csv(

'data/cs-training.csv'

) data.describe(

) data.columns.tolist(

)## 用蓋帽法處理異常值

data = outliersdeal(data,

['customerid'

,'seriousdlqin2yrs'])

data.describe(

)

讓你的個人效率翻三倍

你是否曾有過這種感覺 當你回顧自己度過的一周時感到消沉,因為你未能完成自身所期望的那麼多工作。當你在打造乙個成功的職業生涯或你自己的事業時,時間或許是你最寶貴的財富,如何支配你的時間直接決定了你的收入。你無法購買自身擁有之外的時間,而時鐘卻永不停息地滴答作響。使用乙個詳細的日程表 更好地管理你的時間...

讓你的個人效率翻三倍

你是否曾有過這種感覺 當你回顧自己度過的一周時感到消沉,因為你未能完成自身所期望的那麼多工作 當你在打造乙個成功的職業生涯或你自己的事業時,時間 或許是你最寶貴的財富,如何支配你的時間直接決定了你的收入。你無法購買自身擁有之外的時間,而時鐘卻永不停息地滴答作響。幾年前,我發現了乙個能讓我把效率 提高...

快Hadoop三倍分布式架構Mapr誕生

日期 2011 04 09 字型 大 中 小 mapr官網截圖 日前在紐約舉行的乙個海量資料結構化會議上,通過了乙個新的面向終端裝置的分布式架構計畫 mapr。據了解,mapr是hadoop中的乙個特殊版本,並有可能在今年晚些時候推出。該公司位於加州的san jose,此公司對此已經進行了為期兩年的...