有一句話這麼說,特徵決定上限,模型逼近上限。特徵選擇對後面的模型訓練很重要,選擇合適重要的特徵,對問題求解尤為重要,下面介紹一些常見的特徵選擇方法。
通常來說,從兩個方面考慮來選擇特徵:
①相關係數法 使用相關係數法,先要計算各個特徵對目標值的相關係
常用的有皮爾遜相關係數,斯皮爾曼秩係數,可見本部落格中的相關分析
②構建單個特徵的模型,通過模型的準確性為特徵排序,藉此來選擇特徵
③通過l1正則項來選擇特徵:l1正則方法具有稀疏解的特性,天然具備特徵選擇的特性
分別使用l1和l2擬合,如果兩個特徵在l2中係數相接近,在l1中乙個係數為0乙個不為0,那麼其實這兩個特徵都應該保留,原因是l1對於強相關特徵只會保留乙個
④訓練能夠對特徵打分的預選模型:randomforest和logisticregression/gbdt等都能對模型的特徵打分,通過打分獲得相關性後再訓練最終模型
⑤
通過特徵組合後再來選擇特徵:如對使用者id和使用者特徵最組合來獲得較大的特徵集再來選擇特徵,這種做法在推薦系統和廣告系統中比較常見
⑥
深度學習
⑦
傳統用前進或者後退法的逐步回歸來篩選特徵或者對特徵重要性排序,對於特徵數量不多的情況還是適用的。
⑧
方差選擇法,計算各個特徵的方差,然後根據閾值,選擇方差大於閾值的特徵
⑨卡方檢驗,經典的卡方檢驗是檢驗定性自變數對定性因變數的相關性
詳見本部落格卡方檢驗及其應用
⑩互資訊法(資訊增益),互資訊法經典的互資訊也是評價定性自變數對定性因變數的相關性的
互資訊指的是兩個隨機變數之間的關聯程度,即給定乙個隨機變數後,另乙個隨機變數不確定性的削弱程度,因而互資訊取值最小為0,意味著給定乙個隨機變數對確定一另乙個隨機變數沒有關係,最大取值為隨機變數的熵,意味著給定乙個隨機變數,能完全消除另乙個隨機變數的不確定性。
互資訊是用來評價乙個事件的出現對於另乙個事件的出現所貢獻的資訊量,具體的計算公式為:
其中u、c代表兩個事件,e的取值可以為0或者1,1代表出現這個事件,0代表不出現。
機器學習特徵選擇方法
有一句話這麼說,特徵決定上限,模型逼近上限。特徵選擇對後面的模型訓練很重要,選擇合適重要的特徵,對問題求解尤為重要,下面介紹一些常見的特徵選擇方法。通常來說,從兩個方面考慮來選擇特徵 特徵是否發散 如果乙個特徵不發散,例如方差接近於0,也就是說樣本在這個特徵上基本上沒有差異,這個特徵對於樣本的區分並...
機器學習特徵選擇方法
特徵決定上限,模型逼近上限。特徵選擇對後面的模型訓練很重要,選擇合適重要的特徵,對問題求解尤為重要,下面介紹一些常見的特徵選擇方法。通常來說,從兩個方面考慮來選擇特徵 特徵是否發散 如果乙個特徵不發散,例如方差接近於0,也就是說樣本在這個特徵上基本上沒有差異,這個特徵對於樣本的區分並沒有什麼用。特徵...
機器學習 特徵選擇
特徵選擇是特徵工程中的重要問題 另乙個重要的問題是特徵提取 坊間常說 資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中占有相當重要的地位。通常而言,特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集,工程上常用的方法有以下 1.計算每...