過濾器方法,這種方法首先選定特徵,再來進行學習。根據每乙個屬性的一些指標(如方差等),來確定這個屬性的重要程度,然後對所有屬性按照重要程度排序,從高到低的選擇屬性。選定了屬性以後,再來進行訓練。比如fisher score、laplacian score等。這種方法其實不大好,因為決定特徵選擇效果的不是單個的屬性,而是屬性的集合,比如屬性a、b、c,單個來看效果不好,但是它們組合起來效果有可能不錯。
包裹器方法,這種方法把選定的特徵集用分類器進行訓練,用訓練效果(如準確率等)來作為特徵集的評價。比如將啟發式搜尋、ga等。這種方法和分類器相結合,比較直觀,和filter相比也更加合理。缺點是計算開銷較大。
嵌入式方法,即把特徵選擇的過程作為學習過程的一部分,在學習的過程中進行特徵選擇,最典型的如決策樹演算法。
特徵選擇的兩種方法
通過使用相關性,我們很容易看到特徵之間的線性關係。這種關係可以用一條直線擬合。下面每幅圖上方的相關係數cor x1,x2 是計算出來的皮爾遜r值,從圖中可以看出不同程度的相關性。p值越高,我們越不能信任這個相關係數 上圖中,前三個具有高相關係數,我們可以選擇把x1或者x2扔掉,因為他們似乎傳遞了相似...
特徵選擇的三種方法 基本概念
過濾式 過濾式方法指的是先對特徵集進行篩選,然後再進行學習器的訓練,特徵選擇過程對後續的學習器無關。相當於先用特徵選擇的過程對初始的特徵進行過濾,再用過濾後的特徵進行模型的訓練。典型代表有 relief演算法。該演算法的思想如下 為每個特徵設定乙個統計量,所有特徵的統計量構成乙個向量。統計量代表的是...
CRC的3種方法
一.crc16演算法 首先在原始檔標頭檔案加入錶值 cpp view plain copy print?crc16碼表 static word const wcrc16table 256 crc16碼表 static word const wcrc16table 256 然後在檔案中加入下列函式 c...