kaggle的titanic 比賽不少題解有標準的處理流程,這裡參考:kaggle titanic 生存** -- 詳細流程**梳理 嘗試提取常用的缺失值處理方法
這裡還是借助google colab 來學習
age、cabin、embarked、fare幾個特徵缺失值import pandas as pd
data = pd.read_csv('data/train.csv')
data .info()
1、如果資料集很多,但有很少的缺失值,可以刪掉帶缺失值的行;rangeindex: 891 entries, 0 to 890
data columns (total 12 columns):
passengerid 891 non-null int64
survived 891 non-null int64
pclass 891 non-null int64
name 891 non-null object
*** 891 non-null object
age 714 non-null float64
sibsp 891 non-null int64
parch 891 non-null int64
ticket 891 non-null object
fare 891 non-null float64
cabin 204 non-null object
embarked 889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ kb
data.embarked[data.embarked.isnull()] = data.embarked.dropna().mode().values
mode表示眾數。此時看到embarked 特徵也補齊了
data.describe() 可以看到每一列不算入null的平均值
data['age'][data.age.isnull()] = data['age'].mean()
4、使用回歸 隨機森林等模型來**缺失屬性的值。因為age在該資料集裡是乙個相當重要的特徵(先對age進行分析即可得知),所以保證一定的缺失值填充準確率是非常重要的,對結果也會產生較大影響。一般情況下,會使用資料完整的條目作為模型的訓練集,以此來**缺失值。對於當前的這個資料,可以使用隨機森林來**也可以使用線性回歸**。這裡使用隨機森林**模型,選取資料集中的數值屬性作為特徵(因為sklearn的模型只能處理數值屬性,所以這裡先僅選取數值特徵,但在實際的應用中需要將非數值特徵轉換為數值特徵)#replace missing value with u0
data['cabin'] = data.cabin.fillna('u0') # data.cabin[data.cabin.isnull()]='u0'
5、使用拉格朗日插值法from sklearn.ensemble import randomforestregressor
#choose training data to predict age
age_df = data[['age','survived','fare', 'parch', 'sibsp', 'pclass']]
age_df_notnull = age_df.loc[(data['age'].notnull())]
age_df_isnull = age_df.loc[(data['age'].isnull())]
x = age_df_notnull.values[:,1:]
y = age_df_notnull.values[:,0]
# use randomforestregression to train data
rfr = randomforestregressor(n_estimators=1000, n_jobs=-1)
predictages = rfr.predict(age_df_isnull.values[:,1:])
data.loc[data['age'].isnull(), ['age']]= predictages
