Encoding編碼詳情

編碼或者連續化處理是把分類變數轉火車數值副本的過程。譬如，處理性別時，男的定為1，女的定為0.分類變數在許多模型方法中(譬如，線性回歸，svm，神經網路)必須進行編碼。兩種主要的編碼型別是二進位制編碼和基於目標的編碼。

通過用0或者1來表示每個類別不存在或者存在是分類變數量化的乙個方法。如果分類變數有k個分類，那麼我們需要建立k個二進位制變數(理論上來說，k-1個就已經足夠了)。在下面的例子中，帶3個值得分類變數「trend」轉換成3個分離的二進位制數值變數。這中方法最大的缺點是當分類變數有很多個值得時候，資料的維度會大大增加。

基於目標的編碼是通過目標來對分類變數量化。在這個方法中，我們把乙個分類變數替換成乙個數值變數，然後再計算該分類變數出現的目標概率(如果是分類的)或者平均值(如果是數值的)。這個方法的最大缺點是它比較依賴目標的分布，而且和二進位制方法相比，它的**能力比較低。例1