機器學習2 1 機器學習中的特徵選擇

2022-09-10 02:51:13 字數 631 閱讀 3101

特徵提取演算法分為特徵選擇和特徵抽取兩大類

常採用特徵選擇方法。常見的六種特徵選擇方法:

df(document frequency) 文件頻率

df:統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性

mi(mutual information) 互資訊法

互資訊法用於衡量特徵詞與文件類別直接的資訊量。

如果某個特徵詞的頻率很低,那麼互資訊得分就會很大,因此互資訊法傾向」低頻」的特徵詞。

相對的詞頻很高的詞,得分就會變低,如果這詞攜帶了很高的資訊量,互資訊法就會變得低效。

(information gain) 資訊增益法

通過某個特徵詞的缺失與存在的兩種情況下,語料中前後資訊的增加,衡量某個特徵詞的重要性。

chi(chi-square) 卡方檢驗法

利用了統計學中的」假設檢驗」的基本思想:首先假設特徵詞與類別直接是不相關的

如果利用chi分布計算出的檢驗值偏離閾值越大,那麼更有信心否定原假設,接受原假設的備則假設:特徵詞與類別有著很高的關聯度。

wllr(weighted log likelihood ration)加權對數似然

wfo(weighted frequency and odds)加權頻率和可能性

pca等

機器學習2 4 特徵學習

需要利用手動特徵工程從原始資料的領域知識建立特徵 stage1 然後再部署相關的機器學習演算法的都不是特徵學習 stage2 像svm 決策樹 k鄰近演算法 隨機森林都不是,他們的定位應該是在stage2部分 特徵學習可以被分為兩類 監督式特徵學習 supervised representation...

機器學習實戰 2 1

from numpy import 匯入科學計算包numpy import operator 匯入運算子模組 def createdataset group array 1.0,1.1 1.0,1.0 0,0 0,0.1 labels a a b b return group,labels 2 1k...

機器學習 特徵選擇

特徵選擇是特徵工程中的重要問題 另乙個重要的問題是特徵提取 坊間常說 資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中占有相當重要的地位。通常而言,特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集,工程上常用的方法有以下 1.計算每...