#encoding = utf-8
import jieba.analyse as analyse
lines_1 = open('...\\nba.txt',encoding = 'utf-8').read()
print(' '.join(analyse.extract_tags(lines_1,topk = 20,allowpos = ())))
>>> 時間 建議 特別 過程 選擇 機會 期待 一家 介紹 很大 交流 韋少 全明星 杜蘭特 mvp 全明星賽 威少 指導 兩次 週末
jieba.analyse.textrank(sentence,topk = 20,withweight = false,allowpos = ())
sentence 為待分析文字
allowpos = ()指定返回詞的詞性
import jieba.analyse as analyse
lines_1 = open('d:\\study\\nlp\\01_nlpbasis_txt\\lecture_1\\nba.txt',encoding = 'utf-8').read()
print(' '.join(analyse.textrank(lines_1,topk = 20, withweight = false, allowpos = ('ns','n','vn','v'))))
>>>全明星賽 勇士 正賽 指導 對方 投籃 球員 沒有 出現 時間 威少 認為 看來 結果 相隔 助攻 現場 三連莊 介紹 嘉賓
print(' '.join(analyse.textrank(lines_1,topk = 20, withweight = false, allowpos = ('ns','n'))))
>>>勇士 正賽 全明星賽 指導 投籃 玩命 時間 對方 現場 結果 球員 嘉賓 時候 全隊 主持人 ** 全程 目標 快船隊 肥皂劇
關鍵詞提取
隱含主題模型優缺點 隱含主題模型可以很好地表示文件和標籤主題,有效降低標籤系統中噪音的影響。但是另外乙個方面,隱含主題相對於詞而言粒度較粗,對於具體實體 如人名 地名 機構名和產品名 的標籤沒有辦法做到很好地區分,因此對這些細粒度標籤推薦效果較差 典型的聚類演算法 層次聚類 hierarchical...
關鍵詞提取
import jieba.analyse index 2400 print df news content index str.join sequence sequence中用str連線 content s str join content s index print join jieba.anal...
TF IDF 提取關鍵詞
class document p s p p string,1,preg split no empty this build tf else public function build tf public function build tfidf idf else arsort this tfidf...