指從巨大的特徵集中選取出對模型有利的特徵子集,減小特徵維度,訓練資料規模。
在機器學習的實際應用中,特徵數量往往比較多,其中可能存在冗餘特徵,對模型不利的特徵,特徵之間也可能存在相互依賴,容易導致如下的後果:
(1)特徵個數越多,分析特徵、訓練模型所需的事件就越長
(2)特徵個數越多,容易引起「維度災難」,模型也會越複雜,推廣能力會下降。
(1)產生過程——》(2)評價函式——》(3)停止準則——》(4)驗證過程
搜尋演算法
(1)完全搜尋
(廣度優先搜尋,分支限界搜尋,定向搜尋 ,最優優先搜尋)
(2)啟發式搜尋
(序列前向選擇(sfs),序列後向選擇(sbs), 雙向搜尋(bds),增l去r選擇演算法(lrs), 序列浮動選擇,決策樹(dtm))
(3)隨機搜尋
(隨機產生序列選擇演算法(rgss),模擬退火演算法(sa),遺傳演算法(ga))
原文連線:
此文章僅限總結記錄,具體特徵選擇演算法未介紹
機器學習 特徵選擇
特徵選擇是特徵工程中的重要問題 另乙個重要的問題是特徵提取 坊間常說 資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中占有相當重要的地位。通常而言,特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集,工程上常用的方法有以下 1.計算每...
機器學習 特徵選擇
資料預處理完成以後,特徵比較多時,就需要對特徵進行選擇。使有意義的特徵輸入模型進行訓練。特徵選擇通常來說從兩個方面入手 特徵選擇的方法 在sklearn中可以使用feature selection庫來進行特徵選擇。2.1.1 方差選擇法 方差選擇法需要計算各特徵的方差,然後根據給定的方差閾值選擇特徵...
機器學習 特徵選擇
當資料預處理完成後,我們需要選擇有意義的特徵輸入機器學習的演算法和模型進行訓練。通常來說,從兩個方面考慮來選擇特徵 根據特徵選擇的形式又可以將特徵選擇方法分為3種 embedded 嵌入法,先使用某些機器學習的演算法和模型進行訓練,得到各個特徵的權值係數,根據係數從大到小選擇特徵。類似於filter...