目前業務所用模型都需要把連續的特徵轉化為離散值,特做總結如下:
分桶的個數一般由特徵意義和經驗人為設定,比如年齡可以根據小學,初中,高中,大學等分桶,
此處以日期舉例:
優勢:連續性特徵拆分成乙個四元素向量,那麼模型現在可以學習四個單獨的權重,與單個權重相比,離散的向量特徵,由於只有乙個元素置位 (1),其他三個元素清零 (0),分桶可以讓模型清楚地區分不同桶的類別。即,模型可以為每個單獨的分桶類別學習單獨的權重,解耦。
每個桶表示乙個唯一的整數或類別。
使用雜湊的方法,將原始類別轉化為指定類別個數,如將『然後再one-hot。
如我們有一萬個單詞,實踐中不允許有一萬維的one--hot向量怎麼辦?只能通過構建雜湊函式,先給每個單詞賦予乙個標籤,如1,2,3,4… 然後通過雜湊得到雜湊值(雜湊值的個數可以通過雜湊函式的構造限定),可以將一萬個單詞雜湊為100個雜湊值,然後再做one-hot。
如果幾個類別被雜湊到了同乙個雜湊值怎麼辦?雜湊衝突!即獲得同乙個類別。——> 與機器學習中許多有悖常理的現象一樣,雜湊通常可以在實踐中很好地執行,用就完事了。
主要參考部落格:
特徵工程之特徵選擇
在前一篇文章中我介紹了一些資料預處理的方法,原始資料在經過預處理之後可以被演算法處理了,但是實際中可能有一些特徵是沒有必要的,比如在中國採集的一些資料,那麼國籍就都是中國,其實也就沒有意義了,反映在統計量上就是方差過小,也就是樣本在這個特徵上變化很小。還有一種情況是特徵和最後的結果相關性很小,也就是...
特徵工程之特徵選擇
特徵選擇其實就是減少屬性個數,為什麼要這麼做呢?直接使用原始資料來訓練模型的話,雖然說在訓練模型上的準確率會非常高,但是在測試樣本上的準確率將會大打折扣,也就是會產生過擬合的現象。所以說需要選擇出最適合的屬性進行訓練。特徵選擇的原因 2 雜訊 部分特徵對 結果又影響 進行特徵選擇的時候有兩種情況 一...
特徵工程之特徵表達
在特徵工程之特徵選擇中,我們講到了特徵選擇的一些要點。本篇我們繼續討論特徵工程,不過會重點關注於特徵表達部分,即如果對某乙個特徵的具體表現形式做處理。主要包括缺失值處理,特殊的特徵處理比如時間和地理位置處理,離散特徵的連續化和離散化處理,連續特徵的離散化處理幾個方面。特徵有缺失值是非常常見的,大部分...