首先是wiki的定義
tf-idf(英語:term frequency–inverse document frequency)是一種用於資訊檢索與文字挖掘的常用加權技術。
tf-idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。
字詞的重要性隨著它在檔案**現的次數成正比增加,但同時會隨著它在語料庫**現的頻率成反比下降。
tf-idf加權的各種形式常被搜尋引擎應用,作為檔案與使用者查詢之間相關程度的度量或評級。
也就是tf-idf使用詞在當前文件出現的頻率以及在所有文件**現的頻率來衡量這個詞的重要性,最終得到當前文件
的代表性詞彙.
分為兩部分計算:
tf 詞頻
也就是指定的詞在當前文件的出現頻率,通常是歸一化後的值.
需要統計當前詞出現的次數,以及文件的總詞數
計算公式為(截圖自wiki):
nij表示在第j個文件**現詞語i的次數,因此分子是詞i的次數,分母是所有詞的個數
idf 逆向檔案概率
衡量乙個詞的普遍性,如果乙個詞在很多文件中都出現過,那麼他就無法用來代表當前文件的特徵.
計算的方式是總檔案數除以包含當前詞語的檔案數,然後取對數,公式為(來自wiki):
其中|d|是文件的總數,||表示含有ti的文件的個數
該值越大說明這個詞對於當前文件越重要
因此最終的tf-idf為
tf-idf = tf(i,j) * idf(i)
對文件中所有的詞計算tf-idf值,然後選擇topn就可以得到主題詞 中國分類主題詞表
認真閱讀 中國分類主題詞表 一體化的標引方法 請寫出 中國分類主題詞表 對情報語言的整合力度與具體內容。請寫出 中國分類主題詞表 web資料庫的檢索功能。3 通過閱讀 從網路資訊組織看 中國分類主題詞表 請寫出 中國分類主題詞表 web的應用作用。4請將 口腔疾病 ddc 617.6 轉換為 中圖法...
Linux主題 獲取幫助
linux有多種方式獲取幫助,這些幫助通過不同的命令,獲得不同詳細程度和文字量的幫助。help方式有兩種用法,一種是help command,另一種是command help。前一種是help命令 要獲取幫助的command命令。後者是命令加help引數。前者是對linux內建命令適用 後者只對外部...
獲取 hexo主題靜態頁面
官方 hexo主題庫 修改部落格目錄d myhexoblog config.yml中的theme屬性,將其設定為yanmlng。theme yanmlnghexo g g是generetor的縮寫,生成部落格 hexo s s是server的縮寫,啟動服務 生成的部落格靜態檔案在d myhexobl...