Kaggle學習筆記之分類變數

kaggle intermediate machine learning 分類變數

分類變數一般只有幾個固定的非數值取值，未經預處理直接使用機器學習模型處理大多數會報錯。

目錄結果分析

刪除分類變數

只適用於不包含有用資訊的列

序號編碼（ordinal encoding）

用不同的序號來表示不同的值，維度不變

one-hot編碼（one-hot encoding）

將分類變數轉換為相應數量的二進位制列，1代表某個輸入屬於該列的類別。（one-hot編碼會增加維度，一般在分類變數值不超過15個時使用）

# 找到分類變數的列表object_cols：
s = (x_train.dtypes == 'object')
object_cols = list(s[s].index)

1. 刪除分類變數

使用select_dtypes()方法排除object列

drop_x_train = x_train.select_dtypes(exclude=['object'])
drop_x_valid = x_valid.select_dtypes(exclude=['object'])

2. 序號編碼

使用ordinalencoder類，對每一列分類變數使用序號編碼，分類變數列表為object_cols。

from sklearn.preprocessing import ordinalencoder
# 使用copy防止原始資料被修改
label_x_train = x_train.copy()
label_x_valid = x_valid.copy()
# 對分類變數列使用序號編碼
ordinal_encoder = ordinalencoder()
label_x_train[object_cols] = ordinal_encoder.fit_transform(x_train[object_cols])
label_x_valid[object_cols] = ordinal_encoder.transform(x_valid[object_cols])

3. one-hot編碼

使用onehotencoder類，handle_unknown='ignore'表示忽略驗證集**現的未知分類變數，預設為'error'表示報錯。sparse=false表示返回乙個numpy陣列，而不是稀疏矩陣。

from sklearn.preprocessing import onehotencoder
# 將one-hot編碼應用到分類變數的每一列
oh_encoder = onehotencoder(handle_unknown='ignore', sparse=false)
oh_cols_train = pd.dataframe(oh_encoder.fit_transform(x_train[object_cols]))
oh_cols_valid = pd.dataframe(oh_encoder.transform(x_valid[object_cols]))
# one-hot編碼會刪除索引，需要重新設定
oh_cols_train.index = x_train.index
oh_cols_valid.index = x_valid.index
# 刪除分類變數列（會被替換為one-hot列）
num_x_train = x_train.drop(object_cols, axis=1)
num_x_valid = x_valid.drop(object_cols, axis=1)
# 將one-hot編碼後的列拼接到數值列上
oh_x_train = pd.concat([num_x_train, oh_cols_train], axis=1)
oh_x_valid = pd.concat([num_x_valid, oh_cols_valid], axis=1)