特徵選擇方法

當資料預處理完成後，我們需要選擇有意義的特徵輸入機器學習的演算法和模型進行訓練。通常來說，從兩個方面考慮來選擇特徵：

特徵是否發散：如果乙個特徵不發散，例如方差接近於0，也就是說樣本在這個特徵上基本上沒有差異，這個特徵對於樣本的區分並沒有什麼用。

根據特徵選擇的形式又可以將特徵選擇方法分為3種：

embedded：嵌入法，先使用某些機器學習的演算法和模型進行訓練，得到各個特徵的權值係數，根據係數從大到小選擇特徵。類似於filter方法，但是是通過訓練來確定特徵的優劣。　　

我們使用sklearn中的feature_selection庫來進行特徵選擇。

【特徵工程】特徵選擇及mrmr演算法解析

機器學習中，有哪些特徵選擇的工程方法？

簡單而清晰：

特徵獲取過程特徵獲取定義的角度特徵獲取要解決的兩個問題啟發式方法為一種近似演算法，具有很強的主觀傾向。隨機方法是一種相對較新的方法，細分為完全隨機方法和概率隨機方法兩種。總的說來，上述三類中只有窮舉法能保證最優，但耗時並且計算複雜度很高，後兩者以效能為代價換取簡單快速的實現，但不能保證最優。...