1、tf-idf:term frequency-inverse document frequency)
概念:tf-idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。
字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比。
詞頻(term frequency,tf):某乙個給定的詞語在該檔案中出現的次數。這個數字通常會被歸一化,以防止它偏向長的檔案。
逆向檔案頻率(inverse document frequency,idf)是乙個詞語普遍重要性的度量。某一特定詞語的idf,可以由總檔案除以包含該詞語的檔案的數目,再將得到的商取對數得到。
原理:如果某個詞或短語在一篇文章中出現的頻率tf高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。
不足之處:如果乙個詞條在乙個類的文件中頻繁出現,則說明該詞條能夠很好的代表這個類的文字的特徵,這樣的詞條能夠很好的代表這個類的文字的特徵,這樣的詞條應該給他們賦予較高的權重,並選來作為該類文字的特徵詞以區分與其他文件。但是按照該演算法賦予了較低的權重。
參考資料
部落格: (
文字關鍵詞提取 Python
import numpy as np import pandas as pd import jieba import jieba.analyse 讀取txt文字檔案 def read from file directions decode set utf 8 gb18030 iso 8859 2 g...
關鍵詞提取演算法
傳統的tf idf演算法中,僅考慮了詞的兩個統計資訊 出現頻次 在多少個文件出現 因此,其對文字的資訊利用程度顯然也是很少的。演算法本身的定義是死的,但是結合我們的應用場景,對演算法進行合適的重塑及改造,使之更適應對應場景的應用環境,無疑能對我們想要得到的結果起到更好的指導作用。textrank演算...
NLP 關鍵詞提取演算法
一 提取關鍵字技術簡介 關鍵字提取技術一般也可以分為有監督和無監督 分別是tf idf演算法 textrank演算法和主題模型演算法 包括lsa lsi lda等 tf idf演算法 tf idf term frequency inverse document frequency,詞頻 逆文件頻次演...