jieba是優秀的中文分詞第三方庫
jieba有3種模式
1.精確模式,返回乙個列表型別的分詞結果
>>>jieba.lcut("中國是乙個偉大的國家")
['中國', '是', '乙個', '偉大', '的', '國家']
2.全模式,返回乙個列表型別的分詞結果,存在冗餘
>>>jieba.lcut("中國是乙個偉大的國家",cut_all=true)
['中國', '國是', '乙個', '偉大', '的', '國家']
3.搜尋引擎模式,返回乙個列表型別的分詞結果,存在冗餘
>>>jieba.lcut_for_search(「中華人民共和國是偉大的")
['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']
jieba向分詞詞典增加新詞
jieba.add_word(w)
>>>jieba.add_word("蟒蛇語言")
例項一:hamlet英文詞頻統
#calhamletv1.py
def gettext():
txt = open("hamlet.txt", "r").read()
txt = txt.lower()
for ch in'!"#$%&()*+,-./:;<=>?@[\\]^_『~':
txt = txt.replace(ch, " ")
return txt
hamlettxt= gettext()
words = hamlettxt.split()
counts = {}
for word in words:
counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambdax:x[1], reverse=true)
for i in range(10):
word, count = items[i]
print("".format(word, count))
例項二:中文文字分詞
#calthreekingdomsv1.py
import jieba
txt = open("threekingdoms.txt", "r", encoding="utf-8").read()
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == 1:
continue
elif word =="1" or word=="2": #加上elif後濾除1、2人稱謂顯示,只顯示3稱謂
rword=="3"
else:
counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=true)
for i in range(15):
word, count = items[i]
print("".format(word, count))
jieba庫詞頻統計 運用jieba庫進行詞頻統計
python第三方庫jieba 中文分詞 一 概述 jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 二 安裝說明 全自動安裝 cmd命令列 pip install jieb...
jieba庫詞頻統計 jieba庫的使用與詞頻統計
1 詞頻統計 1 詞頻分析是對文章中重要詞彙出現的次數進行統計與分析,是文字 挖掘的重要手段。它是文獻計量學中傳統的和具有代表性的一種內容分析方法,基本原理是通過詞出現頻次多少的變化,來確定熱點及其變化趨勢。2 安裝jieba庫 安裝說明 對 python 2 3 均相容 全自動安裝 easy in...
jieba庫的使用
jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 cmd命令列 pip install jieba jieba分詞依靠中文詞庫 利用乙個中文詞庫,確定漢字之間的關聯概率 漢字...