importjieba
excludes =
txt = open("
紅樓夢.txt
","r
",encoding='
utf-8
').read()
words =jieba.lcut(txt)
#利用jieba庫將紅樓夢的所有語句分成詞彙
counts ={}
#建立的乙個空的字典
for word in
words:
if len(word) == 1: #
如果長度是一,可能是語氣詞之類的,應該刪除掉
continue
else
: counts[word] = counts.get(word,0) + 1
for word in
excludes:
del(counts[word])#
這一步:如果列出的干擾詞彙在分完詞後的所有詞彙中那麼刪除
items =list(counts.items())
#把儲存[姓名:個數]的字典轉換成列表
items.sort(key=lambda x:x[1],reverse =true) #
對上述列表進行排序,'true'是降序排列
for i in range(20):
word,count =items[i]
print("
".format(word,count))
python 中文jieba分詞
import os import jieba from collections import counter def words txt print jieba.cut txt lista jieba.cut txt 返回的結構都是乙個可迭代的 generator,可以使用 for 迴圈來獲得分詞後...
關於jieba分詞 Python
做詞云視覺化的時候,一般都用乙個庫叫jieba,它是用來分詞的。jieba庫在安裝時,會附帶乙個詞庫,這個詞庫中包含了日常漢語的詞語和詞性。在分詞時,jieba庫會先基於詞庫對文字進行匹配,生成文字中的漢字最有可能形成的詞。然後將這些詞組成乙個dag,用動態規劃演算法來查詢最大的概率路徑,盡可能不將...
jieba 利用jieba分詞
目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式,分別是全模式,精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞,精確模式下會盡可能的將句子精確切開,搜尋引擎模式實在精確模式的基礎上,對長詞再進行劃分,提高分詞的召回率。使用cut和cut for search即可...