如何運用jieba庫分詞

2022-07-02 09:39:08 字數 3582 閱讀 4764

使用jieba庫分詞

一.什麼是jieba庫

1.jieba庫概述 

jieba是優秀的中文分詞第三方庫,中文文字需要通過分詞獲得單個詞語。

2.jieba庫的使用:(jieba庫支援3種分詞模式)

通過中文詞庫的方式識別

精確模式:把文字精確的切分開,不存在冗餘單詞

全模式:把文字所有可能的詞語都描述出來,有冗餘

搜尋引擎模式:在精確模式的基礎上,對長詞進行切分

3.jieba庫是屬於python中優秀的中文分詞第三方庫,需要額外安裝

二.安裝jieba庫

方法2:在計算機命令列輸入

按下回車就會自動安裝,稍微等待就可以了

三.函式庫的呼叫

jieba庫在python的 idle中執行時可以使用兩種匯入方式

(1)匯入庫函式:import  《庫名》

使用庫中函式:《庫名》 . 《函式名》 (《函式引數》)

例如:import jieba

(2) 匯入庫函式:from  《庫名》  import * ( *為萬用字元 )

使用庫中函式:《函式名》 (《函式引數》)

例如:from jieba import *

四.jieba庫的實際應用(對文字的詞頻統計)

1

from jieba import *

2 excludes=lcut_for_search("

頭領兩個乙個武松如何只見說道軍馬眾人那裡")

3 txt=open("

水滸傳.txt

","r

").read()

4 words=lcut(txt)

5 counts={}

6for word in

words:

7if len(word)==1:

8continue

9elif word =="

及時雨"

or word == "公明"

or word =="哥哥"

or word == "

公明曰"

:10 rword ="宋江"

11elif word =="

黑旋風"

or word =="黑牛"

:12 rword ="李逵"

13elif word =="

豹子頭"

or word == "

林教頭"

:14 rword ="林沖"

15elif word =="

智多星"

or word =="

吳用曰"

:16 rword ="吳用"

17else

:18 rword=word

19 counts[word]=counts.get(word,0)+1

20for word in

excludes:

21del

(counts[word])

22 items=list(counts.items())

23 items.sort(key=lambda x:x[1],reverse=true)

24for i in range(10):

25 word,count=items[i]

26print("

".format(word,count))

執行結果:(有些多餘的詞語未做好排除,**仍需要改進)

五.詞雲圖(jieba庫與wordcloud庫的結合應用)

from wordcloud import wordcloud

import matplotlib.pyplot as plt

from jieba import *

# 生成詞云

def create_word_cloud(filename):

text = open("{}.txt".format(filename)).read()

font = 'c:\windows\fonts\simfang.ttf'

wordlist = cut(text, cut_all=true) # 結巴分詞

wl = " ".join(wordlist)

# 設定詞云

wc = wordcloud(

# 設定背景顏色

background_color="black",

# 設定最大顯示的詞云數

max_words=200,

# 這種字型都在電腦字型中,一般路徑

font_path= font,

height=1200,

width=1600,

# 設定字型最大值

max_font_size=100,

# 設定有多少種隨機生成狀態,即有多少種配色方案

random_state=100,

)myword = wc.generate(wl) # 生成詞云

# 展示詞雲圖

plt.imshow(myword)

plt.axis("off")

plt.show()

wc.to_file('img_book.png') # 把詞云儲存下

if __name__ == '__main__':

create_word_cloud('水滸傳')

執行結果 

jieba分詞運用例項

import os import jieba.analyse as analyse import time 這裡是乙個計時功能的實現 begin time.time 這裡是網路 所在的父目錄 fatherdir d project44 網路 獲得所有書名組成的list,乙個個打太麻煩了 bookli...

jieba庫詞頻統計 運用jieba庫進行詞頻統計

python第三方庫jieba 中文分詞 一 概述 jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 二 安裝說明 全自動安裝 cmd命令列 pip install jieb...

jieba 利用jieba分詞

目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式,分別是全模式,精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞,精確模式下會盡可能的將句子精確切開,搜尋引擎模式實在精確模式的基礎上,對長詞再進行劃分,提高分詞的召回率。使用cut和cut for search即可...