PYTHON中JIEBA分詞關於紅樓夢出現的高頻詞

2022-07-08 04:42:13 字數 768 閱讀 2499

import

jieba

excludes =

txt = open("

紅樓夢.txt

","r

",encoding='

utf-8

').read()

words =jieba.lcut(txt)

#利用jieba庫將紅樓夢的所有語句分成詞彙

counts ={}

#建立的乙個空的字典

for word in

words:

if len(word) == 1: #

如果長度是一,可能是語氣詞之類的,應該刪除掉

continue

else

: counts[word] = counts.get(word,0) + 1

for word in

excludes:

del(counts[word])#

這一步:如果列出的干擾詞彙在分完詞後的所有詞彙中那麼刪除

items =list(counts.items())

#把儲存[姓名:個數]的字典轉換成列表

items.sort(key=lambda x:x[1],reverse =true) #

對上述列表進行排序,'true'是降序排列

for i in range(20):

word,count =items[i]

print("

".format(word,count))

python 中文jieba分詞

import os import jieba from collections import counter def words txt print jieba.cut txt lista jieba.cut txt 返回的結構都是乙個可迭代的 generator,可以使用 for 迴圈來獲得分詞後...

關於jieba分詞 Python

做詞云視覺化的時候,一般都用乙個庫叫jieba,它是用來分詞的。jieba庫在安裝時,會附帶乙個詞庫,這個詞庫中包含了日常漢語的詞語和詞性。在分詞時,jieba庫會先基於詞庫對文字進行匹配,生成文字中的漢字最有可能形成的詞。然後將這些詞組成乙個dag,用動態規劃演算法來查詢最大的概率路徑,盡可能不將...

jieba 利用jieba分詞

目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式,分別是全模式,精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞,精確模式下會盡可能的將句子精確切開,搜尋引擎模式實在精確模式的基礎上,對長詞再進行劃分,提高分詞的召回率。使用cut和cut for search即可...