基於TF IDF的新聞標籤提取

2022-08-22 14:09:13 字數 564 閱讀 4163

新聞標籤是一條新聞的關鍵字,可以由編輯上傳,或者通過機器提取。新聞標籤的提取主要用於推薦系統中,所以,提取的準確性影響推薦系統的有效性。同時,對於將標籤展示出來的新聞**,標籤的準確性也會影響使用者體驗。

新聞首先是一段文字,新聞的標籤首先是這一段文字的關鍵字。在文字關鍵字提取當中,td-idf是首先可以想到的演算法。tf-idf演算法的優點是:簡單快速,結果比較符合實際情況;缺點是,單純以「詞頻」衡量乙個詞的重要性,不夠全面,而且重要的詞可能出現次數少。

a) 統計海量新聞標籤,並得到標籤熱度;

b)利用tf-idf得新聞文字關鍵字集(取top20);

c) 將20個關鍵字的權重乘對應標籤熱度 ti = tfidfi * (1 + hoti) 其中,加一是為了避免關鍵字不在標籤字典裡導致結果為0;

d) 根據計算結果重新排序,取前5個關鍵字;

最後簡單驗證了一下,利用jieba完成tf-idf,再python計算。

驗證了兩條財經新聞 鏈結為:

驗證了一條財經新聞 鏈結為:

程式得到關鍵字為:投資,中國,報告,fdi,對外

效果比較:顯然,程式得到的標籤更為準確。

使用sklearn提取文字的tfidf特徵

from sklearn.feature extraction.text import countvectorizer,tfidfvectorizer,tfidftransformercorpus this is the first document.this is the second secon...

TF IDF關鍵詞提取方法的學習

tf idf term frequency inverse document frequency 是一種用於資訊檢索與資料探勘的常用加權技術。tf意思是詞頻 term frequency idf意思是逆向檔案頻率 inverse document frequency 最近學習了阮一峰先生關於tf i...

TF IDF演算法提取文章的關鍵詞

初學中文文字分詞,從最簡單的tf idf演算法入手,理解其中的邏輯結構,其中使用jieba分詞包作為分詞模型。這裡部分內容參考了 hahaha的部落格。tf idf原理 舉個例子 我們在大學選修了數學和體育兩門課,數學為9學分,體育為1學分,期末的時候考試成績分別為60和100分,那麼如果我們說平均...