中文詞頻統計

2022-03-14 04:08:47 字數 1378 閱讀 7014

2. 從檔案讀取待分析文字。

3. 安裝並使用jieba進行中文分詞。

4. 更新詞庫,加入所分析物件的專業詞彙。

5. 生成詞頻統計、排序、排除語法型詞彙,代詞、冠詞、連詞等停用詞、輸出詞頻最大top20,把結果存放到檔案裡

源**:

import jieba

fo = open(r"d:/三體.txt",encoding="utf-8")

santi_txt = fo.read()

jieba.load_userdict(r"d:/stword.txt") #新增專業詞彙詞庫

fo2 = open(r"d:/stops_chinese1.txt",encoding="utf-8")

cnstops = fo2.read()

cnstops = cnstops.split("\n")

st=ss=set(cnstops)

for d in jieba.cut_for_search(santi_txt):

for n in a:

g.update(n)

g[n]=santi_txt.count(n)

print("{} : {}".format(n,santi_txt.count(n)))

for w in st:

isstop = false

for a in cnstops:

if w==a:

isstop=true

if isstop==true:

st.remove(w)

santi_txt =' '.join(wordlist)

wordcount = wordcloud().generate(wl_split)

santi_txt.sort(key=lambda x: x[1], reverse=true) # 列表排序

print(santi_txt[0:20]) #輸出top20

plt.imshow(wordcount)

plt.axis("off")

plt.show()

結果:

6. 生成詞云:

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...

中文詞頻統計

作業要求來自 2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 6.排序 7.排除語法型詞彙,代詞 冠詞 連詞等停用詞。此處使用的是標準的詞語停用表 8.輸出詞頻最大top20,把結果存放到檔案裡 輸出的top20為 9.生成詞...