一、安裝第三方庫
jieba庫和wordcloud庫是優秀的第三方庫,需要我們手動安裝這兩個庫。
開啟cmd,分別輸入以下指令,即可安裝jieba庫和wordcloud庫
pip install jieba
pip install wordcloud二、運用jieba庫分析一篇文章
這裡我選取的是作家朱光潛的文章《朝抵抗力最大的路徑走》,來統計其中詞語出現的頻率
**如下:
import jieba輸出如下:txt = open("c:\\text.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == 1:
continue
else:
counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=true)
for i in range(15):
word, count = items[i]
print ("".format(word, count))
可見在這篇文章中,詞頻前15的詞語如上圖所示
三、運用wordcloud庫
jieba庫能將txt中的詞頻統計出來,並按照我們所希望的格式輸出。但用wordcloud庫能將這些詞語形成詞云,並且可以用方式輸出。
這裡我選取的是***總理代表***在十三屆全國人大二次會議上作的《**工作報告》,來用wordcloud庫形成詞云。
**如下:
#govrptwordcloudv1.py詞云如下圖所示:import jieba
import wordcloud
f = open("c:\\2023年**工作報告.txt", "r", encoding="utf-8")
t = f.read()
f.close()
ls = jieba.lcut(t)
txt = " ".join(ls)
w = wordcloud.wordcloud( \
width = 1000, height = 700,\
background_color = "white",
font_path = "msyh.ttc",\
max_words=50
)w.generate(txt)
w.to_file("grwordcloud.png")
Python jieba庫的使用
jieba 是 python 中乙個重要的第三方中文分詞函式庫 對於一段英文文字,例如,i like python and big data 如果希望提取其中的單詞,只要使用字串處理的split 方法即可。例如str i like python and big data print str spli...
二級python jieba庫(必選)
最常用的中文分詞函式 import jieba jieba.lcut 全國計算機等級考試 building prefix dict from the default dictionary loading model cost 1.007 seconds.prefix dict has been bu...
使用python jieba庫進行中文分詞
jieba 結巴 中文分詞 做最好的 python 中文分詞元件 jieba chinese for to stutter chinese text segmentation built to be the best python chinese word segmentation module.功...