中文詞頻統計

2022-09-10 13:36:19 字數 2643 閱讀 8738

作業要求:

來自紅樓夢的一小章內容:

2. 從檔案讀取待分析文字。

text=open('123.txt','r',encoding='utf-8').read()
3. 安裝並使用jieba進行中文分詞。pip install jieba

import jieba

jieba.lcut(text)

import jieba

wordsls=jieba.lcut(text)

4. 更新詞庫,加入所分析物件的專業詞彙。jieba.add_word('天罡北斗陣')  #逐個新增

jieba.load_userdict(word_dict)  #詞庫文字檔案

轉換**:scel_to_text

詞庫:

worddict1=[line.strip() for line in open('23.txt',encoding='utf-8').readlines()]

jieba.load_userdict(worddict1)

5. 生成詞頻統計

wcdict={}

for word in wordsls:

if word not in worddict2:(7.排除語法型)

if len(word)==1:

continue

else:

wcdict[word]=wcdict.get(word,0)+1

6. 排序

wcls=list(wcdict.items())

wcls.sort(key=lambda x:x[1],reverse=true) 

7. 排除語法型詞彙,代詞、冠詞、連詞等停用詞。檔案:

stops

worddict2=[line.strip() for line in open('stops_chinese.txt',encoding='utf-8').readlines()]
8. 輸出詞頻最大top20,把結果存放到檔案裡

import pandas as pd

pd.dataframe(data=word).to_csv('e:/1234.csv',encoding='utf-8')

9. 生成詞云。

wl_split=" ".join(wordsls) 

from wordcloud import wordcloud

import matplotlib.pyplot as plt

mywc = wordcloud().generate(wl_split)

plt.imshow(mywc)

plt.axis("off")

plt.show()

10.最總**總和和截圖:

中文詞頻統計

2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...