在了解tf-idf原理前,我們首先需要高清楚為啥需要它以及它能解決什麼問題?下面我們先從以計數為特徵的文字向量化來說起。
計數特徵,簡單來講就是統計每個特徵詞在文件中出現的次數,把次數作為特徵的權重。因此在以計數特徵文字分詞並向量化後,我們可以得到詞彙表中每個詞在各個文字中形成的詞向量,比如我們將下面4個短文本做了詞頻統計:
corpus=[
」我 來到 風景 非常 美麗 的 杭州 喝 到了 非常 好喝 的 龍井」,
「我 非常 喜歡 旅遊」,
「我 非常 喜歡 吃 蘋果 「,
」我 非常 喜歡 看 電視」
] 使用sklearn處理後得到的基於計數特徵的詞向量如下:
如何我們直接將這以計數特徵的12維特徵作為每篇文件的特徵向量,來進行文字分類,那麼將會出現乙個明顯的問題。比如第乙個文字,我們發現」杭州」,」龍井」和「風景」各出現1次,而「非常「出現了2次。單從計數特徵來看似乎這個文字與」非常「這個特徵更關係緊密。但是實際上」非常「是乙個非常普遍的詞,在4個短文本中都出現了,因此雖然它的詞頻為2,但是重要性卻比詞頻為1的」「杭州」,」龍井」和「風景」要低的多,因為它在四個短文本區分度最低。但是,如果我們採用以計數為特徵的向量化就無法反應這一點。因此我們需要進一步的預處理來反應文字的這個特徵,而這個預處理就是tf-idf。
tf idf 原理及實踐
也就是詞頻啦,即乙個詞在文 現的次數 如果乙個詞越常見,那麼分母就越大,逆文件頻率就越小越接近0。分母之所以要加1,是為了避免分母為0 即所有文件都不包含該詞 log表示對得到的值取對 用統計學語言表達,就是在詞頻的基礎上,要對每個詞分配乙個 重要性 權重 這個詞越常見 給予較小的權重,較少見的詞 ...
TF IDF解釋及應用
tf 該詞在某篇文件中出現的頻率,tf w,d 值越大,表明該詞在文件中的重要性越高 idf 單詞普遍性的度量,如果該值越小,則該詞認為非常普遍,如果該值很大,則認為該詞在其他文件中很少出現,可以用該詞來進行分類。應用 1 搜尋引擎 tf idf q,d sum 3 找出相似文章 生成兩篇文章各自的...
輕鬆理解Redux原理及工作流程
redux由dan abramov在2015年建立的科技術語。是受2014年facebook的flux架構以及函式式程式語言elm啟發。很快,redux因其簡單易學體積小在短時間內成為最熱門的前端架構。本文中我將用通俗易懂的方式講述redux的原理和工作流程 react元件 或其他使用redux的元...