一、理論梳理
計算候選詞之間的語義相似度。
根據語義相似度對候選詞進行聚類。
具體方式舉例:
tfidf根據每個詞在文件中的tfidf值來計算其重要性;
texkrank基於圖的方法;
lda則是根據文件和單詞的主題分布相似度來計算單詞的重要性。
無監督的抽取方法又可細化為:
利用中文分詞系統對微博進行分詞;
利用微博權重分析系統和單詞權重分析系統計算微博中每個詞的權重;
二、rake
python實現:github: python-rake
nlp keyword extraction tutorial with rake and maui
**automatic keyword extraction from individual documents
其中介紹了rake在準確率和效率方面均優於textrank
import rake
result =''' '''
rake = rake.rake(rake.smartstoplist())
keywords = rake.run(result)
print(keywords)
結果比較驚豔,主要以短語的輸出為主。
三、基於隱含主題模型構建主題的方法
lda:latent dirichlet allocation
四、其他
關鍵詞抽取 pagerank,textrank
pagerank pagerank 通過網路浩瀚的超連結關係來確定乙個頁面的等級,把從 a 頁面到 b 頁面的鏈結解釋為 a 頁面給 b 頁面投票,google 根據 a 頁面 甚至鏈結到 a的頁面 的 等級和投票 目標的等級來決定 b 的等級。簡單的說,乙個高等級的頁面可以使其他低等級頁面的等級提...
TF IDF演算法實現關鍵詞抽取
tf idf具體演算法如下 tfidfi,j tfi,j idfi 其中tfidf i,j 是指詞i 相對於文件j的重要性值。tf i,j 指的是某個給定的詞語在指定文件中出現的次數佔比。即給定的詞語在該文件中出現的頻率。這個數字是對term count的歸一化,防止它偏向長文件。計算公式為 tf ...
jieba簡易教程 分詞 詞性標註 關鍵詞抽取
jieba chinese for to stutter chinese text segmentation built to be the best python chinese word segmentation module.支援三種分詞模式 預設是精確模式 支援繁體分詞 支援自定義詞典 mi...