對於文字工作者,和內容運營的朋友,經常需要統計詞頻詞性,然後畫出詞雲圖這樣的需求。本文推薦一種詞頻詞性統計工具,並且可以自動畫出詞頻圖和詞雲圖,先介紹這款軟體的基本功能。
文字字數預設不超過1萬字,分別支援自定義分詞字典和停用詞。一鍵提交即可檢視結果。結果包含詞頻、詞性、常用標點等分布圖:
當然還有詞雲圖:
我們發現朱自清在《荷塘月色》裡用得最多的字是「也」,這應該算是他的用語習慣吧。
如果你只有如下需求:
不超過1萬字文字
只統計詞頻、詞性、標點、和方形詞雲圖。
以上需求是免費的。
jieba wordcloud 按詞頻生成詞云
coding utf 8 from random import randint import jieba.analyse from os import path from pil import image,imagesequence import numpy as np import matplot...
詞頻統計和詞云繪製
import os os.chdir r d text text1 for root,dirs,files in os.walk r d 綠色金融文字庫 for i in files path os.path.join root,i with open path,r encoding gb18030...
文字分詞,記詞頻,做詞云
a b table lecture read.csv 1.segment.txt sep header true,fileencoding utf 8 檢視前幾行,看是否有字元編碼問題 head lecture 獲取資料集長度 n length lecture 1 print n 文字預處理 res...