特徵選擇方法:
(1)方差法
看特徵是否發散,如果方差接近於0,也就是該特徵基本沒有差異,對於樣本的區分基本沒用,應該刪去。
計算各個特徵的方差,然後設定閾值,選擇方差大於閾值的特徵。
(2)皮爾森相關係數
皮爾森相關係數衡量特徵與目標值之間的相關性,只能衡量線性相關性。
(3)卡方檢驗
檢驗定性自變數對定型因變數的相關性。
(4)互資訊法
互資訊計算公式:
====以上四種方法為過濾式方法*****
使用乙個基模型來進行多輪訓練,每輪訓練後消除若干權值係數的特徵,再基於新的特徵集進行下一輪訓練。
(6)基於樹模型的特徵選擇法(embedd 嵌入式)
樹模型中的gbdt可用來作為基模型進行特徵選擇
特徵選擇方法
特徵獲取過程 特徵獲取定義的角度 特徵獲取要解決的兩個問題 啟發式方法為一種近似演算法,具有很強的主觀傾向。隨機方法是一種相對較新的方法,細分為完全隨機方法和概率隨機方法兩種。總的說來,上述三類中只有窮舉法能保證最優,但耗時並且計算複雜度很高,後兩者以效能為代價換取簡單 快速的實現,但不能保證最優。...
特徵選擇方法
特徵獲取過程 特徵獲取定義的角度 特徵獲取要解決的兩個問題 啟發式方法為一種近似演算法,具有很強的主觀傾向。隨機方法是一種相對較新的方法,細分為完全隨機方法和概率隨機方法兩種。總的說來,上述三類中只有窮舉法能保證最優,但耗時並且計算複雜度很高,後兩者以效能為代價換取簡單 快速的實現,但不能保證最優。...
特徵選擇方法
特徵獲取過程 特徵獲取定義的角度 特徵獲取要解決的兩個問題 啟發式方法為一種近似演算法,具有很強的主觀傾向。隨機方法是一種相對較新的方法,細分為完全隨機方法和概率隨機方法兩種。總的說來,上述三類中只有窮舉法能保證最優,但耗時並且計算複雜度很高,後兩者以效能為代價換取簡單 快速的實現,但不能保證最優。...