使用jieba庫分詞
一.什麼是jieba庫
1.jieba庫概述
jieba是優秀的中文分詞第三方庫,中文文字需要通過分詞獲得單個詞語。
2.jieba庫的使用:(jieba庫支援3種分詞模式)
通過中文詞庫的方式識別
精確模式:把文字精確的切分開,不存在冗餘單詞
全模式:把文字所有可能的詞語都描述出來,有冗餘
搜尋引擎模式:在精確模式的基礎上,對長詞進行切分
3.jieba庫是屬於python中優秀的中文分詞第三方庫,需要額外安裝
二.安裝jieba庫
方法2:在計算機命令列輸入
按下回車就會自動安裝,稍微等待就可以了
三.函式庫的呼叫
jieba庫在python的 idle中執行時可以使用兩種匯入方式
(1)匯入庫函式:import 《庫名》
使用庫中函式:《庫名》 . 《函式名》 (《函式引數》)
例如:import jieba
(2) 匯入庫函式:from 《庫名》 import * ( *為萬用字元 )
使用庫中函式:《函式名》 (《函式引數》)
例如:from jieba import *
四.jieba庫的實際應用(對文字的詞頻統計)
1執行結果:(有些多餘的詞語未做好排除,**仍需要改進)from jieba import *
2 excludes=lcut_for_search("
頭領兩個乙個武松如何只見說道軍馬眾人那裡")
3 txt=open("
水滸傳.txt
","r
").read()
4 words=lcut(txt)
5 counts={}
6for word in
words:
7if len(word)==1:
8continue
9elif word =="
及時雨"
or word == "公明"
or word =="哥哥"
or word == "
公明曰"
:10 rword ="宋江"
11elif word =="
黑旋風"
or word =="黑牛"
:12 rword ="李逵"
13elif word =="
豹子頭"
or word == "
林教頭"
:14 rword ="林沖"
15elif word =="
智多星"
or word =="
吳用曰"
:16 rword ="吳用"
17else
:18 rword=word
19 counts[word]=counts.get(word,0)+1
20for word in
excludes:
21del
(counts[word])
22 items=list(counts.items())
23 items.sort(key=lambda x:x[1],reverse=true)
24for i in range(10):
25 word,count=items[i]
26print("
".format(word,count))
五.詞雲圖(jieba庫與wordcloud庫的結合應用)
from wordcloud import wordcloud執行結果import matplotlib.pyplot as plt
from jieba import *
# 生成詞云
def create_word_cloud(filename):
text = open("{}.txt".format(filename)).read()
font = 'c:\windows\fonts\simfang.ttf'
wordlist = cut(text, cut_all=true) # 結巴分詞
wl = " ".join(wordlist)
# 設定詞云
wc = wordcloud(
# 設定背景顏色
background_color="black",
# 設定最大顯示的詞云數
max_words=200,
# 這種字型都在電腦字型中,一般路徑
font_path= font,
height=1200,
width=1600,
# 設定字型最大值
max_font_size=100,
# 設定有多少種隨機生成狀態,即有多少種配色方案
random_state=100,
)myword = wc.generate(wl) # 生成詞云
# 展示詞雲圖
plt.imshow(myword)
plt.axis("off")
plt.show()
wc.to_file('img_book.png') # 把詞云儲存下
if __name__ == '__main__':
create_word_cloud('水滸傳')
jieba分詞運用例項
import os import jieba.analyse as analyse import time 這裡是乙個計時功能的實現 begin time.time 這裡是網路 所在的父目錄 fatherdir d project44 網路 獲得所有書名組成的list,乙個個打太麻煩了 bookli...
jieba庫詞頻統計 運用jieba庫進行詞頻統計
python第三方庫jieba 中文分詞 一 概述 jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 二 安裝說明 全自動安裝 cmd命令列 pip install jieb...
jieba 利用jieba分詞
目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式,分別是全模式,精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞,精確模式下會盡可能的將句子精確切開,搜尋引擎模式實在精確模式的基礎上,對長詞再進行劃分,提高分詞的召回率。使用cut和cut for search即可...