任務2 TF IDF理論與實踐

tf-idf有兩層意思，一層是"詞頻"（term frequency，縮寫為tf），另一層是"逆文件頻率"（inverse document frequency，縮寫為idf）。

在乙份給定的檔案裡，詞頻 (term frequency, tf) 指的是某乙個給定的詞語在該檔案**現的次數。

逆向檔案頻率 (inverse document frequency, idf) 是乙個詞語普遍重要性的度量。

假如我們現在有一篇文章叫做《卷積神經網路模型的搭建》，我們對詞彙的tf進行統計，可以統計出卷積、池化等詞彙在裡面出現的次數比較多，所以是裡面的主要詞彙，這些詞彙有助於我們理解文章。但是這樣會有停用詞干擾，例如「的」，「了」等。這些詞對於我們理解文章沒什麼用處，所以我們還需要引入idf，通過觀察這個詞彙在其他文章出現的頻率來看這個詞是否對文章的處理很重要。

第一步，計算詞頻：

考慮到文章有長短之分，為了便於不同文章的比較，進行"詞頻"標準化。

第二步，計算逆文件頻率：

這時，需要乙個語料庫（corpus），用來模擬語言的使用環境。

如果乙個詞越常見，那麼分母就越大，逆文件頻率就越小越接近0。分母之所以要加1，是為了避免分母為0（即所有文件都不包含該詞）。log表示對得到的值取對數。

第三步，計算tf-idf：

優缺點tf-idf的優點是簡單快速，而且容易理解。

缺點是有時候用詞頻來衡量文章中的乙個詞的重要性不夠全面，有時候重要的詞出現的可能不夠多，而且這種計算無法體現位置資訊，無法體現詞在上下文的重要性。如果要體現詞的上下文結構，那麼你可能需要使用word2vec演算法來支援。

因為sklearn有這個函式，我就直接呼叫，這個任務是接著上乙個的，我就展示這個任務的**

import pandas as pd
from sklearn.feature_extraction.text import tfidfvectorizer
import pickle
vectorizer = tfidfvectorizer(ngram_range=(1, 2), min_df=3, max_df=0.9, sublinear_tf=true)#匯入函式，並且定義好函式初始值
vectorizer.fit(train_set['word_seg'])
x_train = vectorizer.transform(train_set['word_seg'])
x_val = vectorizer.transform(val_set['word_seg'])

參考文獻：

任務2 TF IDF理論與實踐

TF IDF原理與實踐

PCA理論與實踐

https理論與實踐

任務2 TF IDF理論與實踐

TF IDF原理與實踐

PCA理論與實踐

https理論與實踐

相關推薦