特徵選擇方法小結

特徵選擇方法：

（1）方差法

看特徵是否發散，如果方差接近於0，也就是該特徵基本沒有差異，對於樣本的區分基本沒用，應該刪去。

計算各個特徵的方差，然後設定閾值，選擇方差大於閾值的特徵。

（2）皮爾森相關係數

皮爾森相關係數衡量特徵與目標值之間的相關性，只能衡量線性相關性。

（3）卡方檢驗

檢驗定性自變數對定型因變數的相關性。

（4）互資訊法

互資訊計算公式：

====以上四種方法為過濾式方法*****

使用乙個基模型來進行多輪訓練，每輪訓練後消除若干權值係數的特徵，再基於新的特徵集進行下一輪訓練。

（6）基於樹模型的特徵選擇法（embedd 嵌入式）

樹模型中的gbdt可用來作為基模型進行特徵選擇

特徵獲取過程特徵獲取定義的角度特徵獲取要解決的兩個問題啟發式方法為一種近似演算法，具有很強的主觀傾向。隨機方法是一種相對較新的方法，細分為完全隨機方法和概率隨機方法兩種。總的說來，上述三類中只有窮舉法能保證最優，但耗時並且計算複雜度很高，後兩者以效能為代價換取簡單快速的實現，但不能保證最優。...