異常值的存在給建模帶來極大困擾,在模型構建之前,採用四分位間距法去掉異常值是我們常用的方法,我把**總結如下:
## del_cols:不用蓋帽法處理的列名集合
## df_data_1:待處理的資料框
defoutliersdeal
(df_data_1 , del_cols )
:import copy
df_data = copy.deepcopy(df_data_1.drop(del_cols , axis =1)
) colnames = df_data.columns.tolist(
)for col_name in colnames:
u_75 = df_data[col_name]
.quantile(q =
0.75
) u_25 = df_data[col_name]
.quantile(q =
0.25
) iqr = u_75 - u_25
df_data.loc[df_data[col_name]
> u_75 +
1.5*iqr , col_name]
= u_75 +
1.5*iqr
df_data.loc[df_data[col_name]
< u_25 -
1.5*iqr , col_name]
= u_25 -
1.5*iqr
df_data_1[col_name]
= df_data[col_name]
return df_data_1
函式的呼叫:
if __name__ ==
'__main__'
:import pandas as pd
import numpy as np
data = pd.read_csv(
'data/cs-training.csv'
) data.describe(
) data.columns.tolist(
)## 用蓋帽法處理異常值
data = outliersdeal(data,
['customerid'
,'seriousdlqin2yrs'])
data.describe(
)
讓你的個人效率翻三倍
你是否曾有過這種感覺 當你回顧自己度過的一周時感到消沉,因為你未能完成自身所期望的那麼多工作。當你在打造乙個成功的職業生涯或你自己的事業時,時間或許是你最寶貴的財富,如何支配你的時間直接決定了你的收入。你無法購買自身擁有之外的時間,而時鐘卻永不停息地滴答作響。使用乙個詳細的日程表 更好地管理你的時間...
讓你的個人效率翻三倍
你是否曾有過這種感覺 當你回顧自己度過的一周時感到消沉,因為你未能完成自身所期望的那麼多工作 當你在打造乙個成功的職業生涯或你自己的事業時,時間 或許是你最寶貴的財富,如何支配你的時間直接決定了你的收入。你無法購買自身擁有之外的時間,而時鐘卻永不停息地滴答作響。幾年前,我發現了乙個能讓我把效率 提高...
快Hadoop三倍分布式架構Mapr誕生
日期 2011 04 09 字型 大 中 小 mapr官網截圖 日前在紐約舉行的乙個海量資料結構化會議上,通過了乙個新的面向終端裝置的分布式架構計畫 mapr。據了解,mapr是hadoop中的乙個特殊版本,並有可能在今年晚些時候推出。該公司位於加州的san jose,此公司對此已經進行了為期兩年的...