中文詞頻統計與詞云生成

2022-08-29 03:15:13 字數 2004 閱讀 3753

老師:missdu

 提交作業

中文詞頻統計

2. 從檔案讀取待分析文字。

3. 安裝並使用jieba進行中文分詞。

pip install jieba

import jieba

jieba.lcut(text)

4. 更新詞庫,加入所分析物件的專業詞彙。

jieba.add_word('天罡北斗陣')  #逐個新增

jieba.load_userdict(word_dict)  #詞庫文字檔案

轉換**:scel_to_text

5. 生成詞頻統計

6. 排序

7. 排除語法型詞彙,代詞、冠詞、連詞等停用詞。

stops

tokens=[token for token in wordsls if token not in stops]

8. 輸出詞頻最大top20,把結果存放到檔案裡

9. 生成詞云。

import

matplotlib.pyplot as plt

import

jieba

import

pandas as pd

f = open('

luxun.txt

', '

r', encoding='

utf-8

') #

讀取**內容

lx =f.read()

f.close()

f1 = open('

def.txt

', '

r', encoding='

utf-8

') #

kai =f1.read()

f1.close()

for i in ['

','\n']:

lx = lx.replace(i, '')#

jieba.add_word("魯迅"

)jieba.load_userdict(

'fff.txt')

kk=jieba.lcut(lx) #

用jieba切割nov

#waste=kai.split('\n'

)tokens = [token for token in kk if token not

inkai]

worddict ={}

wordset =set(tokens)

for w in

wordset:

if len(w)>1:

worddict[w] =tokens.count(w)

##排序

wordlist = sorted(worddict.items(), key = lambda x:x[1], reverse =true)

cut = "

".join(tokens)

##輸出詞頻最大top20

for i in range(20):

print

(wordlist[i])

##把結果存放到檔案裡

pd.dataframe(data=wordlist).to_csv('

text.csv

', encoding='

utf-8

')

def文字:洗掉的無關詞,排除語法型詞彙,代詞、冠詞、連詞等停用詞

生成的csv:

詞云:由於在經歷四個小時的wordcloud的安裝失敗,所以無法使用wordcloud包。

使用cmd安裝成功wordcloud後也不能在pycharm裡面顯示出來使用。

中文詞頻統計與詞云生成

中文詞頻統計 追風箏的人 txt 2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。pip install jieba import jieba jieba.lcut text 4.更新詞庫,加入所分析物件的專業詞彙。jieba.add word 天罡北斗陣 逐個新增 jieba.lo...

中文詞頻統計與詞云生成

中文詞頻統計 作業連線 2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。pip install jieba import jieba jieba.lcut text 4.更新詞庫,加入所分析物件的專業詞彙。jieba.add word 天罡北斗陣 逐個新增 jieba.load us...

中文詞頻統計與詞云生成

2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。pip install jieba import jieba jieba.lcut text 4.更新詞庫,加入所分析物件的專業詞彙。jieba.add word 天罡北斗陣 逐個新增 jieba.load userdict word ...