如何運用jieba庫分詞

使用jieba庫分詞

一.什麼是jieba庫

1.jieba庫概述

jieba是優秀的中文分詞第三方庫，中文文字需要通過分詞獲得單個詞語。

2.jieba庫的使用：（jieba庫支援3種分詞模式）

通過中文詞庫的方式識別

精確模式：把文字精確的切分開，不存在冗餘單詞

全模式：把文字所有可能的詞語都描述出來，有冗餘

搜尋引擎模式：在精確模式的基礎上，對長詞進行切分

3.jieba庫是屬於python中優秀的中文分詞第三方庫，需要額外安裝

二.安裝jieba庫

方法2：在計算機命令列輸入

按下回車就會自動安裝，稍微等待就可以了

三.函式庫的呼叫

jieba庫在python的 idle中執行時可以使用兩種匯入方式

（1）匯入庫函式：import 《庫名》

使用庫中函式：《庫名》 . 《函式名》 (《函式引數》)

例如：import jieba

(2) 匯入庫函式：from 《庫名》 import * ( *為萬用字元 )

使用庫中函式：《函式名》 (《函式引數》)

例如：from jieba import *

四.jieba庫的實際應用（對文字的詞頻統計）

1
from jieba import *
2 excludes=lcut_for_search("
頭領兩個乙個武松如何只見說道軍馬眾人那裡")
3 txt=open("
水滸傳.txt
","r
").read()
4 words=lcut(txt)
5 counts={}
6for word in
words:
7if len(word)==1:
8continue
9elif word =="
及時雨"
or word == "公明"
or word =="哥哥"
or word == "
公明曰"
:10         rword ="宋江"
11elif word =="
黑旋風"
or word =="黑牛"
:12         rword ="李逵"
13elif word =="
豹子頭"
or word == "
林教頭"
:14         rword ="林沖"
15elif word =="
智多星"
or word =="
吳用曰"
:16         rword ="吳用"
17else
:18         rword=word
19         counts[word]=counts.get(word,0)+1
20for word in
excludes:
21del
(counts[word])
22 items=list(counts.items())
23 items.sort(key=lambda x:x[1],reverse=true)
24for i in range(10):
25     word,count=items[i]
26print("
".format(word,count))

執行結果：（有些多餘的詞語未做好排除，**仍需要改進）

五.詞雲圖（jieba庫與wordcloud庫的結合應用）

from wordcloud import wordcloud
import matplotlib.pyplot as plt
from jieba import *
# 生成詞云
def create_word_cloud(filename):
text = open("{}.txt".format(filename)).read()
font = 'c:\windows\fonts\simfang.ttf'
wordlist = cut(text, cut_all=true) # 結巴分詞
wl = " ".join(wordlist)
# 設定詞云
wc = wordcloud(
# 設定背景顏色
background_color="black",
# 設定最大顯示的詞云數
max_words=200,
# 這種字型都在電腦字型中，一般路徑
font_path= font,
height=1200,
width=1600,
# 設定字型最大值
max_font_size=100,
# 設定有多少種隨機生成狀態，即有多少種配色方案
random_state=100,
)myword = wc.generate(wl)  # 生成詞云
# 展示詞雲圖
plt.imshow(myword)
plt.axis("off")
plt.show()
wc.to_file('img_book.png')  # 把詞云儲存下  
if __name__ == '__main__':
create_word_cloud('水滸傳')

執行結果　

jieba分詞運用例項

import os import jieba.analyse as analyse import time 這裡是乙個計時功能的實現 begin time.time 這裡是網路所在的父目錄 fatherdir d project44 網路獲得所有書名組成的list,乙個個打太麻煩了 bookli...

jieba庫詞頻統計運用jieba庫進行詞頻統計

python第三方庫jieba 中文分詞一概述 jieba是優秀的中文分詞第三方庫中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫，需要額外安裝 jieba庫提供三種分詞模式，最簡單只需掌握乙個函式二安裝說明全自動安裝 cmd命令列 pip install jieb...

jieba 利用jieba分詞

目錄三種分詞模式新增自定義詞典進行分詞 jieba提供了三種分詞模式，分別是全模式，精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞，精確模式下會盡可能的將句子精確切開，搜尋引擎模式實在精確模式的基礎上，對長詞再進行劃分，提高分詞的召回率。使用cut和cut for search即可...

如何運用jieba庫分詞

jieba分詞運用例項

jieba庫詞頻統計 運用jieba庫進行詞頻統計

jieba 利用jieba分詞

相關推薦

jieba庫詞頻統計運用jieba庫進行詞頻統計