達觀杯文字智慧型處理（2）

tf-idf是一種統計方法，用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案**現的次數成正比增加，但同時會隨著它在語料庫**現的頻率成反比下降。 tf-idf加權的各種形式常被搜尋引擎應用，作為檔案與使用者查詢之間相關程度的度量或評級。

tf-idf有兩層意思，一層是"詞頻"（term frequency，縮寫為tf），另一層是"逆文件頻率"（inverse document frequency，縮寫為idf）。

在乙份給定的檔案裡，詞頻 (term frequency, tf) 指的是某乙個給定的詞語在該檔案**現的次數。

逆向檔案頻率 (inverse document frequency, idf) 是乙個詞語普遍重要性的度量。

舉個小例子：假如一篇檔案的總詞語數是100個，而詞語「母牛」出現了3次，那麼「母牛」一詞在該檔案中的詞頻就是3/100=0.03。乙個計算檔案頻率 (df) 的方法是測定有多少份檔案出現過「母牛」一詞，然後除以檔案集裡包含的檔案總數。所以，如果「母牛」一詞在1,000份檔案出現過，而檔案總數是10,000,000份的話，其逆向檔案頻率就是 log(10,000,000 / 1,000)=4。最後的tf-idf的分數為0.03 *4=0.12。

vectorizer = tfidfvectorizer(ngram_range=(1
,2), min_df=
3, max_df=
0.9, sublinear_tf=
true
)vectorizer.fit(df_all[
'word_seg'])
x_train = vectorizer.transform(df_train[
'word_seg'])
x_test = vectorizer.transform(df_test[
'word_seg'
])

參考：

達觀杯文字智慧型處理（2）

達觀杯文字智慧型處理day2

達觀杯文字智慧型處理挑戰賽

達觀杯文字智慧型處理挑戰賽練習

達觀杯文字智慧型處理（2）

達觀杯文字智慧型處理day2

達觀杯文字智慧型處理挑戰賽

達觀杯文字智慧型處理挑戰賽練習

相關推薦