tf-idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案**現的次數成正比增加,但同時會隨著它在語料庫**現的頻率成反比下降。 tf-idf加權的各種形式常被搜尋引擎應用,作為檔案與使用者查詢之間相關程度的度量或評級。
tf-idf有兩層意思,一層是"詞頻"(term frequency,縮寫為tf),另一層是"逆文件頻率"(inverse document frequency,縮寫為idf)。
在乙份給定的檔案裡,詞頻 (term frequency, tf) 指的是某乙個給定的詞語在該檔案**現的次數。
逆向檔案頻率 (inverse document frequency, idf) 是乙個詞語普遍重要性的度量。
舉個小例子:假如一篇檔案的總詞語數是100個,而詞語「母牛」出現了3次,那麼「母牛」一詞在該檔案中的詞頻就是3/100=0.03。乙個計算檔案頻率 (df) 的方法是測定有多少份檔案出現過「母牛」一詞,然後除以檔案集裡包含的檔案總數。所以,如果「母牛」一詞在1,000份檔案出現過,而檔案總數是10,000,000份的話,其逆向檔案頻率就是 log(10,000,000 / 1,000)=4。最後的tf-idf的分數為0.03 *4=0.12。
vectorizer = tfidfvectorizer(ngram_range=(1
,2), min_df=
3, max_df=
0.9, sublinear_tf=
true
)vectorizer.fit(df_all[
'word_seg'])
x_train = vectorizer.transform(df_train[
'word_seg'])
x_test = vectorizer.transform(df_test[
'word_seg'
])
參考: 達觀杯文字智慧型處理day2
tf idf term frequency inverse document frequency,詞頻 逆檔案頻率 是一種用於資訊檢索與資訊探勘的常用加權技術。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案 現的次數成正比增加...
達觀杯文字智慧型處理挑戰賽
筆者嘗試了一下達觀杯的比賽,如下圖所示 import pandas as pd import imp from sklearn.linear model import logisticregression from sklearn.feature extraction.text import cou...
達觀杯文字智慧型處理挑戰賽練習
比賽官方對資料的說明是資料報含兩個檔案 train set.csv和test set.csv 一.初識資料 train set.csv 此資料集用於訓練模型,每一行對應一篇文章。文章分別在 字 和 詞 的級別上做了脫敏處理。共有四列 第一列是文章的索引 id 第二列是文章正文在 字 級別上的表示,即...