作業要求:
來自紅樓夢的一小章內容:
2. 從檔案讀取待分析文字。
text=open('123.txt','r',encoding='utf-8').read()3. 安裝並使用jieba進行中文分詞。pip install jieba
import jieba
jieba.lcut(text)
import jieba4. 更新詞庫,加入所分析物件的專業詞彙。jieba.add_word('天罡北斗陣') #逐個新增wordsls=jieba.lcut(text)
jieba.load_userdict(word_dict) #詞庫文字檔案
轉換**:scel_to_text
詞庫:
worddict1=[line.strip() for line in open('23.txt',encoding='utf-8').readlines()]5. 生成詞頻統計jieba.load_userdict(worddict1)
wcdict={}6. 排序for word in wordsls:
if word not in worddict2:(7.排除語法型)
if len(word)==1:
continue
else:
wcdict[word]=wcdict.get(word,0)+1
wcls=list(wcdict.items())7. 排除語法型詞彙,代詞、冠詞、連詞等停用詞。檔案:wcls.sort(key=lambda x:x[1],reverse=true)
stops
worddict2=[line.strip() for line in open('stops_chinese.txt',encoding='utf-8').readlines()]8. 輸出詞頻最大top20,把結果存放到檔案裡
import pandas as pd9. 生成詞云。pd.dataframe(data=word).to_csv('e:/1234.csv',encoding='utf-8')
wl_split=" ".join(wordsls)10.最總**總和和截圖:from wordcloud import wordcloud
import matplotlib.pyplot as plt
mywc = wordcloud().generate(wl_split)
plt.imshow(mywc)
plt.axis("off")
plt.show()
中文詞頻統計
2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...
中文詞頻統計
從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...
中文詞頻統計
從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...