原 文字挖掘 特徵選擇

2021-09-08 22:24:56 字數 1404 閱讀 1569

特徵選擇有很多方法,看了很多資料後,我總結了以下幾種,以後有新內容會隨時修改

1.df——基於文件頻率的特徵提取方法

概念:df(document frequency)指出現某個特徵項的文件的頻率。

步驟:1).從訓練語料中統計出保函某個特徵的文件頻率(個數)

2).根據設定的閾值(min&max),當該特徵的df值小於某個閾值時,去掉。因為沒有代表性。當該特徵的df值大於某個閾值時,去掉。因為這個特徵使文件出現的頻率太高,沒有區分度。

優點:降低向量計算的複雜度,去掉部分雜訊,提高分類的準確率,且簡單易行。

缺點:對於出現頻率低但包含較多資訊的特徵,對分類很重要,去掉會降低準確率

2.ig——資訊增益

概念:ig(information gain)根據某特徵項t(i)能為整個分類提供的資訊量來很衡量該特徵的重要程度,來決定對該特徵的取捨。通俗點,什麼是乙個特徵的資訊增益呢,說白了就是有這個特徵和沒有這個特徵對整個分類能提供的資訊量的差別。資訊量用什麼衡量?熵。所以乙個特徵的資訊增益=不考慮任何特徵時文件所含的熵-考慮該特徵後文件的熵(具體公式等我學會這個部落格怎麼用公式編輯器後再加上來)

步驟:1.計算不含任何特徵整個文件的熵

2.計算包含該特徵的文件的熵

3.前者-後者

優點:準,因為你選擇的特徵是對分類有用的特徵(這裡需不需要設定閾值?)

缺點:實際情況裡,有些資訊增益較高的特徵出現的頻率較低(?跟頻率有毛線關係?還是這裡也要把所有特徵的資訊增益算出來然後從高到低排列?可是這根頻率也沒有關係啊。哦,是跟公式計算有關。這裡沒寫公式,所有有疑問,回頭把公式補上,爭取用最簡單的話描述出來)

解決方法:1).訓練語料**現的所有詞的資訊增益

2).指定閾值。低於閾值的,刪。或者指定選擇的特徵數,把所有特徵的資訊增益降序排列來選擇。

3.chi——卡方統計量

概念:chi衡量的是特徵項t(i)和c(j)之間的相關聯程度。假設t(i)和c(j)之間符合具有一階自由度的卡方分布,如果特徵對於某類的卡方統計值越高,它與該類之間的相關性越大,攜帶的資訊越多,繁殖則越少。

步驟: 兩種方法:1.計算特徵對每個類別的chi值,在整個語料上分貝找每個類別的最大的值,把這個值設定為閾值,低於閾值的,刪。

2.計算個特徵對於各類別的平均值,以這個平均值作為各類別的chi值(為什麼要這樣做呢?可不可以取中值啥的?這個效果怎麼樣?)

優點:待補充

缺點:待補充

4.mi——互資訊法

概念:mi(mutual information)指互資訊,越大,則特徵t(i)和c(j)之間共同出現的程度越大,如果兩者無關,那麼互資訊=0。

步驟:兩種方法,和chi一樣,最大值方法和平均值法

優點:待補充

缺點:待補充

還有一些其他的,針對中文的,英文的,等等,周一回來補充好了,順便把公式補上。今晚還要趕火車 = =

資料探勘專案 特徵選擇

基於處理好的資料 data.csv data pd.read csv data.csv encoding gbk y data status x cl data.drop status axis 1 計算 iv 函式 def cal iv x,y,n bins 6,null value np.nan...

文字之特徵選擇

從給定的特徵集合中選擇出相關特徵子集的過程,稱為 特徵選擇 特徵選擇是從特徵集t 中選擇乙個真子集t 滿足 s s 其中,s為原始特徵集的大小,s 為選擇後的特徵集大小。選擇的準則是經特徵選擇後能有效提高文字準確率。選擇沒有改變原始特徵空間的性質,只是從原始特徵空間中選擇了一部分重要的特徵,組成乙個...

資料探勘專案(2)特徵選擇

此次進行特徵選擇的資料還是上次用到的金融資料並 貸款使用者是否會逾期。此次資料為了排除缺失值對資料的影響,將所有缺失的樣本資料進行刪除,並刪除了幾個對資料分類無影響的變數,最後保留1534 86的資料量。1.刪除方差較小的特徵,也就是所謂的不發散的特徵,因為這些特徵在所有的資料中變化量很小或者幾乎沒...