1、特徵選擇
特徵選擇是一種及其重要的資料預處理方法。假設你需要處理乙個監督學習問題,樣本的特徵數非常大(甚至),但是可能僅僅有少部分特徵會和對結果產生影響。甚至是簡單的線性分類,如果樣本特徵數超過了n,但假設函式的vc維確仍然是o(n),那麼,除非大大擴充套件訓練集的數量,否則即會帶來過擬合的問題。在這樣的情況下,可以使用特徵選擇演算法降低特徵的數量。
假設樣本有n個特徵,那麼,其有種可能的特徵子集,如果特徵選擇需要去窮舉所有種可能的特徵子集,對於n比較大的情況,計算的代價太大,無法真正實現。
特徵選擇的定義 :對當前學習任務有價值的屬性稱為是「相關特徵」,沒有價值的屬性稱為是「無關特徵」,從給定的特徵集中選擇出相關特徵子集的過程,就稱為是「特徵選擇」。 其中還有一種特徵稱為是「冗餘特徵」,這些特徵指的是可以從其他特徵中推演出來的特徵。
特徵選擇是乙個「資料預處理」過程,它的重要性體現在兩個方面:
1)減輕維度災難問題。
2)去除無關特徵可以降低學習的難度。
2、包裹式選擇
與過濾式選擇不考慮後續學習器不同,包裹式選擇直接把最終將要使用的學習器的效能作為特徵子集的評價依據,也就是說,包裹式特徵選擇是為給定的學習器選擇最有利的特徵子集。
與過濾式選擇相比,包裹式選擇的效果一般會更好,但由於在特徵選擇過程中需要多長訓練學習器,因此包裹式選擇的計算開銷要大很多。
lvw 基於拉斯維加斯方法的框架,拉斯維加斯方法是乙個典型的隨機化方法,即概率演算法中的一種。它具有概率演算法的特點,允許演算法在執行的過程中隨機選擇下一步,許多情況下,當演算法在執行過程中面臨乙個選擇時,隨機性選擇常比最優選擇要省時,因此概率演算法可在很大程度上降低演算法的複雜度。
拉斯維加斯演算法不會得到不正確的解,一旦用拉斯維加斯演算法找到乙個解,那麼這個解一定就是正確的解,但有時用拉斯維加斯演算法找不到解。
lvw 基於拉斯維加斯方法的框架,假設資料集為 d,特徵集為 a,則 lvw 每次從特徵集 a 中隨機產生乙個特徵子集 a′,然後使用交叉驗證的方法(偽**的第 8 步)估計學習器在特徵子集 a′上的誤差,若該誤差小於之前獲得的最小誤差,或者與之前的最小誤差相當但 a′中包含的特徵數更少,則將 a′保留下來。
由於 lvw 演算法每次評價子集 a′ 時,都需要重新訓練學習器,計算開銷很大,因此設定了引數 t 來控制停止條件。但當特徵數很多(即 |a| 很大)並且 t 設定得很大時,可能演算法執行很長時間都不能停止。
3、其他的特徵選擇方法
其他的還有很多,如:
子集搜尋與評價
過濾式選擇
嵌入式選擇
機器學習 特徵選擇
特徵選擇是特徵工程中的重要問題 另乙個重要的問題是特徵提取 坊間常說 資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中占有相當重要的地位。通常而言,特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集,工程上常用的方法有以下 1.計算每...
機器學習 特徵選擇
資料預處理完成以後,特徵比較多時,就需要對特徵進行選擇。使有意義的特徵輸入模型進行訓練。特徵選擇通常來說從兩個方面入手 特徵選擇的方法 在sklearn中可以使用feature selection庫來進行特徵選擇。2.1.1 方差選擇法 方差選擇法需要計算各特徵的方差,然後根據給定的方差閾值選擇特徵...
機器學習 特徵選擇
當資料預處理完成後,我們需要選擇有意義的特徵輸入機器學習的演算法和模型進行訓練。通常來說,從兩個方面考慮來選擇特徵 根據特徵選擇的形式又可以將特徵選擇方法分為3種 embedded 嵌入法,先使用某些機器學習的演算法和模型進行訓練,得到各個特徵的權值係數,根據係數從大到小選擇特徵。類似於filter...