特徵選擇方法

2021-09-27 06:20:37 字數 1394 閱讀 1845

特徵獲取過程

特徵獲取定義的角度

特徵獲取要解決的兩個問題

啟發式方法為一種近似演算法,具有很強的主觀傾向。

隨機方法是一種相對較新的方法,細分為完全隨機方法和概率隨機方法兩種。

總的說來,上述三類中只有窮舉法能保證最優,但耗時並且計算複雜度很高,後兩者以效能為代價換取簡單、快速的實現,但不能保證最優。實際應用中為了折衷效能和代價之間的矛盾,常結合幾種方法,如文獻[18]中採用三步法:首先使用relief演算法去除無關的特徵,其次採用k均值法去除冗餘特徵,然後進行標準的組合特徵方法,取得了較好的效果。這也是進一步研究的方向。

封裝器(也叫封裝式):採用分類器的錯誤概率作為評價函式。

資訊測度:資訊測度是為了衡量後驗概率分布的集中程度所規定的乙個定量指標。從特徵獲取的角度來看,利用具有最小不確定性的那些特徵來分類是最有利的,因此引入資訊領域中作為不確定性量度的熵函式作為評價測度。常用的熵函式有shannon熵、renyi熵和條件熵等。

相關性測度:相關性測度包括兩個方面的內容,既可以利用相關係數,找出特徵和類之間存在的相互關係;又可以利用特徵之間的依賴關係,來表示特徵的冗餘性

一致性測度:發展較晚,它和訓練資料集關係密切,並且需要設定引數,最後得到的結果為滿足給定引數的最小尺寸特徵子集。可利用不一致率作為閾值來進行特徵選擇。

分類器的錯誤概率

處理問題規模的能力

處理樣本數量的能力

對雜訊的容忍能力

無雜訊情況下,產生穩定的、最優特徵子集的能力

參考:王娟, 慈林林, 姚康澤. 特徵選擇方法綜述[j]. 計算機工程與科學, 2005, 27(12):68-71.

特徵工程:

姚旭, 王曉丹, 張玉璽,等. 特徵選擇方法綜述[j]. 控制與決策, 2012, 27(2)161-166.

dash m, liu h. feature selection for classification[j]. intelligent data analysis, 1997, 1(3):131-156.

saeys y. , inza i. and larranãga p. , a review of feature selection techniques in bioinformatics, bioinformatics 23: (19) (2007 ), 2507–2517.

特徵選擇常用演算法綜述(比較全面):

特徵選擇方法

特徵獲取過程 特徵獲取定義的角度 特徵獲取要解決的兩個問題 啟發式方法為一種近似演算法,具有很強的主觀傾向。隨機方法是一種相對較新的方法,細分為完全隨機方法和概率隨機方法兩種。總的說來,上述三類中只有窮舉法能保證最優,但耗時並且計算複雜度很高,後兩者以效能為代價換取簡單 快速的實現,但不能保證最優。...

特徵選擇方法

特徵獲取過程 特徵獲取定義的角度 特徵獲取要解決的兩個問題 啟發式方法為一種近似演算法,具有很強的主觀傾向。隨機方法是一種相對較新的方法,細分為完全隨機方法和概率隨機方法兩種。總的說來,上述三類中只有窮舉法能保證最優,但耗時並且計算複雜度很高,後兩者以效能為代價換取簡單 快速的實現,但不能保證最優。...

特徵選擇方法

當資料預處理完成後,我們需要選擇有意義的特徵輸入機器學習的演算法和模型進行訓練。通常來說,從兩個方面考慮來選擇特徵 特徵是否發散 如果乙個特徵不發散,例如方差接近於0,也就是說樣本在這個特徵上基本上沒有差異,這個特徵對於樣本的區分並沒有什麼用。根據特徵選擇的形式又可以將特徵選擇方法分為3種 embe...