0 安裝
在cmd 命令列 輸入 pip install jieba
1 分詞
import jieba
seg_str='上海自來水廠生產的自來水來自海上'
jieba.lcut(seg_str)#精確模式 試圖將語句最精確的切分,不存在冗餘資料,適合做文字分析
['上海', '自來水廠', '生產', '的', '自來水', '來自', '海上']
jieba.lcut(seg_str,cut_all=true) #全模式將語句中所有可能是詞的詞語都切分出來,速度很快,但是存在冗餘資料
['上海', '自來', '自來水', '自來水廠', '水廠', '生產', '的', '自來', '自來水', '來自', '海上']
jieba.lcut_for_search(seg_str)# 搜尋引擎模式:在精確模式的基礎上,對長詞再次進行切分
['上海', '自來', '水廠', '自來水', '自來水廠', '生產', '的', '自來', '自來水', '來自', '海上']
jieba.add_word('上海自來水廠') # 新增詞語
jieba.lcut(seg_str)
['上海自來水廠', '生產', '的', '自來水', '來自', '海上']
2. 詞性識別
import jieba.posseg as psg參考:s = '我今天開心地到杭州西湖旅遊,驚訝地看到了白娘子和法海在打架'
words = psg.cut(s)
for word, flag in words:
print(word, flag)
jieba基礎使用
jieba庫分詞的三種模式 1 精準模式 把文字精準地分開,不存在冗餘 2 全模式 把文中所有可能的詞語都掃瞄出來,存在冗餘 3 搜尋引擎模式 在精準模式的基礎上,再次對長詞進行切分 函式 功能 jieba.lcut s 精確模式,返回list型別 jieba.lcut s,cut all true...
簡明的jieba中文分詞教程
jieba是一種中文分詞工具,比較好用。獲取鏈結 支援三種分詞模式 seglist jieba.cut 雪見緩緩睜開眼睛又驚又喜 cut all true 全模式 print f 全模式 join seglist 全模式 雪 見 緩緩 睜開 睜開眼 睜開眼睛 開眼 眼睛 又驚又喜seglist ji...
jieba庫的使用
jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 cmd命令列 pip install jieba jieba分詞依靠中文詞庫 利用乙個中文詞庫,確定漢字之間的關聯概率 漢字...