特徵選擇彙總(未完)

2021-07-11 21:30:18 字數 1866 閱讀 4425

tf:詞頻,tf=文字中出現這個詞的數量/文字總詞數。

idf:逆文件頻率,idf=log(文字總數/(出現這個詞的文字數+1))。

思想:頻率高詞的貢獻度大,但是乙個詞分布的文字數越少,貢獻越大,比如「的」的tf很大,但是df很小。

反例1:比如文字有兩類,乙個特徵只在乙個類所有文字出現,另乙個類完全不出現,他的df很大,從而idf很小,導致影響變小,但實際上這類詞貢獻很大。

反例2:根據分布,可能idf的貢獻比tf小或者tf貢獻更小,但tfidf把兩個值的影響看作一樣。

優化:類內的idf和所有文字的idf對文字分類影響完全不同

方案1:加入平衡因子(見vsm的鏈結)

方案2:**(太原理工)分別求出類間的區分程度和類內部的區分策劃程度的公式,然後再綜合求權重。

優點:容易理解和實現。

缺點:只考慮每個詞的單獨情況,沒有考慮詞語間的聯絡,詞語在同一類和不同類分布對分類的影響,詞語在文字不同位置對分類的影響等因素。

在tf-idf中還需要做很多的改進。比如考慮語句關係、詞性關係、文章關係、文章標題的重要程度等

文字空間被看作是一組正交詞條向量所組成的向量空間,每個文件表示為其中一

個規範化特徵向量,以項權值(權重)作為文件向量的屬性值。

v(d)=(t1,w1(d); t2,w2(d)……),d為某個文件,ti為第i個特徵,wi(d)為屬於d的第i個特徵的權重。

d是乙個文件集:

標準tf-idf公式:

n為文字總數。

定義: 該模型基於這樣一種假設,第n個詞的出現只與前面n-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計n個詞同時出現的次數得到。常用的是二元的bi-gram和三元的tri-gram。

但是這種方法存在兩個致命的缺陷:乙個缺陷是引數空間過大,不可能實用化;另外乙個缺陷是資料稀疏嚴重。

為了解決這個問題,我們引入了馬爾科夫假設:乙個詞的出現僅僅依賴於它前面出現的有限的乙個或者幾個詞。

如果乙個詞的出現僅依賴於它前面出現的乙個詞,那麼我們就稱之為bigram。即

p(t) = p(w1w2w3…wn)=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2…wn-1)

≈p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1)

如果乙個詞的出現僅依賴於它前面出現的兩個詞,那麼我們就稱之為trigram。

對於乙個句子t,我們怎麼算它出現的概率呢?假設t是由詞序列w1,w2,w3,…wn組成的,

那麼p(t)=p(w1w2w3wn)=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2…wn-1)

那麼我們怎麼得到p(wn|w1w2…wn-1)呢?一種簡單的估計方法就是最大似然估計(maximum likelihood estimate)了。即

p(wn|w1w2…wn-1) = (c(w1 w2…wn))/(c(w1 w2…wn-1))
剩下的工作就是在訓練語料庫中數數兒了,即統計序列c(w1 w2…wn) 出現的次數和c(w1 w2…wn-1)出現的次數。

1.分詞並去除停用詞後的每個詞都作為特徵。

2.對於每個詞,計算詞和該類別的

1.分詞並去除停用詞後的每個詞都作為特徵。

2.對於每個詞都計算該詞和某個類別的互資訊量:

特徵選擇方法彙總

盧總 特徵選擇方法彙總 特徵選擇三種方法 直接看sklearn 首先做ohe y labelbinarizer fit transform y 做完之後y yy的shape是n k n times kn k observed safe sparse dot y.t,x n classes n fea...

特徵選擇 單變數特徵選擇

1.selectkbest可以依據相關性對特徵進行選擇,保留k個評分最高的特徵。方差分析 分類問題使用f classif,回歸問題使用f regression。f classif 分類任務 跟目標的分類,將樣本劃分成n個子集,s1,s2,sn,我們希望每個子集的均值 1,2,n不相等。我們假設h0 ...

C 程式設計經驗彙總(未完)

過程化語言 一 函式 1 過載函式需要在引數個數 引數型別或引數順序上有所不同。2 預設函式從右往左逐漸定義 3 內聯函式不允許有複雜的結構控制語句。遞迴函式不能用來作內聯函式 4 函式的返回值時將值賦予乙個生命期極短的臨時變數,在完成返回值賦值後,該臨時變數銷毀。5 匹配過載函式的順序 尋找嚴格的...