機器學習 特徵選擇筆記 前言

2021-07-24 12:31:15 字數 1100 閱讀 2469

最近學習特徵選擇,在此記錄下學習過程,一是為加強理解,一是為學習交流。本人能力有限,望多多指教。

特徵選擇  前言

[1][2]不相關特徵對c4.5演算法影響很大,如果去除不相關特徵,c4.5效能會得到很大提高

[3][4][5] 樸素貝葉斯對不相關特徵不敏感,但是對冗餘特徵敏感,如果能降低特徵冗餘則會提高樸素貝葉斯分類效能。

強相關特徵<=>如果特徵x被移除會造成最終分類器效能降低,說明了特徵的不可或缺性

弱相關<=>如果特徵x不是強相關,並且存在特徵集s,使得分類器在s上的效能比在s+(+表示並集操作)上的差。說明弱分類在某些情況下能夠對分類做出貢獻

[1]g.h. john, enhancements to the data mining process, ph.d. thesis, computer science department,

stanford university, ca ( 1997).

[2]thrun et al., the monk』s problems: a performance comparison of different learning algorithms, tech.

rept. cmu-cs-91-197, carnegie mellon university, pittsburgh, pa (1991).

[3]p langley, w. iba and k. thompson, an analysis of bayesian classifiers, in:proceedings aaai-94,

seattle, wa (aaai press and mit press, 1992) 223-228.

[4]i.j. good,the estimation of probabilities: an essay on modern bayesian methods(mit press,

cambridge, ma, 1965).

[5] r. duda and p hart,pattern classification and scene analysis(wiley, new york, 1973).

機器學習 特徵選擇

特徵選擇是特徵工程中的重要問題 另乙個重要的問題是特徵提取 坊間常說 資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中占有相當重要的地位。通常而言,特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集,工程上常用的方法有以下 1.計算每...

機器學習 特徵選擇

資料預處理完成以後,特徵比較多時,就需要對特徵進行選擇。使有意義的特徵輸入模型進行訓練。特徵選擇通常來說從兩個方面入手 特徵選擇的方法 在sklearn中可以使用feature selection庫來進行特徵選擇。2.1.1 方差選擇法 方差選擇法需要計算各特徵的方差,然後根據給定的方差閾值選擇特徵...

機器學習 特徵選擇

當資料預處理完成後,我們需要選擇有意義的特徵輸入機器學習的演算法和模型進行訓練。通常來說,從兩個方面考慮來選擇特徵 根據特徵選擇的形式又可以將特徵選擇方法分為3種 embedded 嵌入法,先使用某些機器學習的演算法和模型進行訓練,得到各個特徵的權值係數,根據係數從大到小選擇特徵。類似於filter...