文字分類任務中tf idf的理解

2021-09-02 06:40:55 字數 946 閱讀 2916

維基百科給的定義式:tf-idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。tf-idf加權的各種形式常被搜尋引擎應用,作為檔案與使用者查詢之間相關程度的度量或評級。除了tf-idf以外,網際網路上的搜尋引擎還會使用基於鏈結分析的評級方法,以確定檔案在搜尋結果中出現的順序。

也即:

tf = 乙個詞在某個檔案中的出現次數 /  該檔案中所有詞出現的次數總和

idf = log 文件總數 / (包含這個詞的所有文件數之和 + 1)

idf表示乙個詞能將當前檔案和其他檔案區分開的能力,越大越好。

tf表示某個詞出現在這段文字的頻率,越大越好。

缺陷:

沒有考慮順序。

容易選出一些出現頻率少,恰巧出現在這個句子中的idf比較高,不具有代表性。

沒有考慮到類內和雷劍的分布情況,只能區分詞在句子層面的表徵水平。

和詞袋模型聯合,先用詞袋模型選出高熱度詞彙,然後用tfidf計算權值,這樣值越高表示該詞區分每條語句的效果越好。

而在文字分類中,我們把每個類解釋為乙個檔案,重新定義tf,idf。

tf = 乙個詞在某個分類的所有樣本中出現的次數 / 這個分類中所有樣本中包含的所有詞出現的次數總和

idf = log 所有類包含的樣本總數 / 包含這個詞的所有類的所有樣本數之和

舉個例子,假設我們有兩類a, b。 a中包含2個樣本,詞數分別為[10, 20],b中包含3個樣本,詞數分別為[30,40]。詞word在a中2個樣本中的出現次數為[2,5],在b中3個樣本中出現次數為[3,0,0]。求詞word對a類的重要程度tfidf。

tf = ( 2 + 5)   /   (10 + 20)

idf = log (2 + 3)  / (( 2 + 1) + 1)

思考 tf idf之於文字分類

因為工作中需要用到計算詞語權重,進而作詞與選擇,思考了一下tf idf。首先還是簡單介紹一下tf idf。這個概念最開始用於資訊檢索。tf表示term frequency,通常是指詞頻 idf表示inversed document frequency,是文件頻率的倒數。計算方式如下 通常是對於一篇文...

思考 tf idf之於文字分類

因為工作中需要用到計算詞語權重,進而作詞與選擇,思考了一下tf idf。首先還是簡單介紹一下tf idf。這個概念最開始用於資訊檢索。tf表示term frequency,通常是指詞頻 idf表示inversed document frequency,是文件頻率的倒數。計算方式如下 通常是對於一篇文...

文字分類任務簡介

文字 特徵工程 決定著模型分類的上界 分類器 逼近模型的上限 類別 1.經典的文字特徵 前人的研究的成熟理論 2.手工構造新的特徵 手工提取,看資料集中是否有好的性特徵 3.用神經網路提取 神經網路僅作為特徵提取器來用 tf tfidf doc2vec word2vec tf詞頻 tfidf 詞頻 ...