python第三方庫jieba(中文分詞)
一、概述
jieba是優秀的中文分詞第三方庫
- 中文文字需要通過分詞獲得單個的詞語
- jieba是優秀的中文分詞第三方庫,需要額外安裝
- jieba庫提供三種分詞模式,最簡單只需掌握乙個函式
二、安裝說明
全自動安裝:(cmd命令列) pip install jieba
安裝成功顯示
三、特點 —— jieba分詞
1. 原理:jieba分詞依靠中文詞庫
- 利用乙個中文詞庫,確定中文字元之間的關聯概率
- 中文字元間概率大的組成片語,形成分詞結果
- 除了分詞,使用者還可以新增自定義的片語
2. 三種分詞模式:
精確模式:試圖將句子最精確地切開,不存在冗餘單詞,適合文字分析;
全模式:把句子中所有的可以成詞的詞語都掃瞄出來, 速度非常快,有冗餘,不能解決歧義;
搜尋引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。
四、jieba庫常用函式
**示例
結果輸出:['中國', '是', '乙個', '偉大', '的', '國家']
2. jieba.lcut(s, cut_all=true) #全模式,返回乙個列表型別的分詞結果,存在冗餘
**示例
jieba.lcut("中國是乙個偉大的國家",cut_all=true)
結果輸出: ['中國', '國是', '乙個', '偉大', '的', '國家']
3. jieba.lcut_for_sear ch(s) #搜尋引擎模式,返回乙個列表型別的分詞結果,存在冗餘
**示例
jieba.lcut_for_search(「中華人民共和國是偉大的")
結果輸出: ['中華', '華人', '人民', '共和', '共和國', '中華人民共 和國', '是', '偉大', '的']
4. jieba.add_word(w) #向分詞詞典增加新詞w
**示例
jieba.add_word("蟒蛇語言")
運用jieba庫進行詞頻統計
例項—— 對西遊記第一回進行詞頻統計
**importjieba
path_txt= 'c:\\users\86136\desktop\西遊記.txt' #文件在電腦上所在位置
txt = open(path_txt,"r").read()
excludes=
words=jieba.lcut(txt)
counts={}for word inwords:
counts[word]= counts.get(word,0)+1
for word inexcludes:delcounts[word]
items=list(counts.items())
items.sort(key=lambda x:x[1],reverse =true)for i in range(15):
word, count=items[i]print("".format(word,count))
執行結果
利用jieba庫統計三國演義中任務的出場次數
mport jieba
txt= open("d:\\三國演義.txt", "r", encoding='utf-8').read()
words= jieba.lcut(txt) #使用精確模式對文字進行分詞
counts = {} #通過鍵值對的形式儲存詞語及其出現的次數
for word inwords:if len(word) == 1: #單個詞語不計算在內
continue
else:
counts[word]= counts.get(word, 0) + 1 #遍歷所有詞語,每出現一次其對應的值加 1
items= list(counts.items())#將鍵值對轉換成列表
items.sort(key=lambda x: x[1], reverse=true) #根據詞語出現的次數進行從大到小排序
for i in range(15):
word, count=items[i]print("".format(word, count))
jieba詞頻統計
from wordcloud import wordcloud import matplotlib.pyplot asplt import numpy asnp from pil import image from jieba import def replace text,old,new 替換列表...
jieba庫詞頻統計 jieba庫的使用與詞頻統計
1 詞頻統計 1 詞頻分析是對文章中重要詞彙出現的次數進行統計與分析,是文字 挖掘的重要手段。它是文獻計量學中傳統的和具有代表性的一種內容分析方法,基本原理是通過詞出現頻次多少的變化,來確定熱點及其變化趨勢。2 安裝jieba庫 安裝說明 對 python 2 3 均相容 全自動安裝 easy in...
使用jieba 中文分詞 庫統計詞頻
以統計水滸傳人物出場次數為例,列出出場次數最高的前三名。import jieba 引用中文分詞庫 txt open shuihu.txt r encoding gb18030 read 讀取檔案,注意編碼 excludes 通過不斷優化排除結果中的無用詞 words jieba.lcut txt 中...