文字關鍵詞提取 Python

2021-08-19 14:53:00 字數 1066 閱讀 7122

import numpy as np

import pandas as pd

import jieba

import jieba.analyse

#讀取txt文字檔案

def read_from_file(directions):

decode_set=['utf-8','gb18030','iso-8859-2','gb2312','gbk','error']#編碼集

#gbk不如gb18030覆蓋得好,容易出錯,故首先嘗試gb18030。

for k in decode_set:#編碼集迴圈

try:

file = open(directions,"r",encoding=k)

readfile = file.read()#這步如果解碼失敗就會引起錯誤,跳到except。

#print("open file %s with encoding %s" %(directions,k))#列印讀取成功

#readfile = readfile.encode(encoding="utf-8",errors="replace")#若是混合編碼則將不可編碼的字元替換為"?"。

file.close()

break#開啟路徑成功跳出編碼匹配

except:

if k=="error":#如果碰到這個程式終止執行

raise exception("%s had no way to decode"%directions)

continue

return readfile

#讀取檔案

file_data = str(read_from_file('射鵰英雄傳txt精校版.txt'))

tfidf=analyse.extract_tags

keywords=tfidf()

輸出結果:

textrank=jieba.analyse.textrank

keywords_tr=textrank(file_data)

輸出結果:

python提取關鍵詞

value 34895348587575 value 34895348587575 abababbaba value 1.290934 coding utf 8 created on sun aug 16 20 57 31 2020 author jwy coding utf 8 version p...

關鍵詞提取

隱含主題模型優缺點 隱含主題模型可以很好地表示文件和標籤主題,有效降低標籤系統中噪音的影響。但是另外乙個方面,隱含主題相對於詞而言粒度較粗,對於具體實體 如人名 地名 機構名和產品名 的標籤沒有辦法做到很好地區分,因此對這些細粒度標籤推薦效果較差 典型的聚類演算法 層次聚類 hierarchical...

關鍵詞提取

encoding utf 8 import jieba.analyse as analyse lines 1 open nba.txt encoding utf 8 read print join analyse.extract tags lines 1,topk 20,allowpos 時間 建議...