特徵選擇演算法

2022-08-25 12:27:18 字數 569 閱讀 6083

特徵選擇的一般過程

從特徵全集中產生出乙個特徵子集,然後用評價函式對該特徵子集進行評價,評價的結果與停止準則進行比較,若滿足停止準則就停止,否則就繼續產生下一組特徵子集,繼續進行特徵選擇。

特徵子集產生過程( generation procedure )

採取一定的子集選取辦法,為評價函式提供特徵子集。根據搜尋過程的方法的不同,可以將特徵選擇分為窮舉、啟發式、隨機幾種方法。

窮舉(完全)

最優優先搜尋

bfs分支界限搜尋

定向搜尋

啟發式sfs sbs(序列前向、後向搜尋)

評價函式( evaluationfunction )

根據不同的評價準則,可以分為:過濾器模型、封裝器模型以及混合模型。過濾器模型是將特徵選擇作為乙個預處理過程,利用資料的內在特性對選取的特徵子集進行評價,獨立於學習演算法。

而封裝器模型則將後續學習演算法的結果作為特徵評價準則的一部分根據評價函式的不同(與採用的分類方法是否關聯),可以將特徵選擇分為獨立性準則、關聯性度量。

常見的評價函式

卡方檢驗、相關性、距離、資訊增益、屬於篩選器,而分類器錯誤率屬於封裝器。

R 特徵選擇演算法

library boruta traindata read.csv train.csv header t,stringsasfactors f gsub功能被用來將一種表示式用另一種方式代替 str traindata names traindata gsub names traindata 檢查一...

特徵選擇演算法之 chisquare 演算法

chisquare特徵選擇演算法 通過計算各個特徵的卡方值,進行排序後得到。每個特徵的卡方值計算應如下 x 2 ya yb 2 yb 其中,ya是每個樣本中,ya的實際值,而yb為理想值,即假設無關成立時,理想的值。由於假設該特徵與目標特徵無關,則應當在該特徵的範圍上,目標特徵值均勻分布。例如 假設...

特徵選擇演算法之 ReliefF 演算法

relieff演算法是relief演算法的擴充套件,relief演算法只適用於兩類樣本的問題,relieff演算法可以應用到多個樣本上。relieff演算法步驟如下 現有不同類別的樣本若干,對每類樣本稱作 xn。1.從所有樣本中,隨機取出乙個樣本a。2.在與樣本a相同分類的樣本組內,取出k個最近鄰樣...