jieba使用教程

2021-10-02 05:03:01 字數 958 閱讀 2044

0 安裝

在cmd 命令列 輸入 pip install  jieba

1 分詞

import jieba

seg_str='上海自來水廠生產的自來水來自海上'

jieba.lcut(seg_str)#精確模式 試圖將語句最精確的切分,不存在冗餘資料,適合做文字分析

['上海', '自來水廠', '生產', '的', '自來水', '來自', '海上']

jieba.lcut(seg_str,cut_all=true) #全模式將語句中所有可能是詞的詞語都切分出來,速度很快,但是存在冗餘資料

['上海', '自來', '自來水', '自來水廠', '水廠', '生產', '的', '自來', '自來水', '來自', '海上']

jieba.lcut_for_search(seg_str)# 搜尋引擎模式:在精確模式的基礎上,對長詞再次進行切分

['上海', '自來', '水廠', '自來水', '自來水廠', '生產', '的', '自來', '自來水', '來自', '海上']

jieba.add_word('上海自來水廠') # 新增詞語

jieba.lcut(seg_str)

['上海自來水廠', '生產', '的', '自來水', '來自', '海上']

2. 詞性識別

import jieba.posseg as psg

s = '我今天開心地到杭州西湖旅遊,驚訝地看到了白娘子和法海在打架'

words = psg.cut(s)

for word, flag in words:

print(word, flag)

參考:

jieba基礎使用

jieba庫分詞的三種模式 1 精準模式 把文字精準地分開,不存在冗餘 2 全模式 把文中所有可能的詞語都掃瞄出來,存在冗餘 3 搜尋引擎模式 在精準模式的基礎上,再次對長詞進行切分 函式 功能 jieba.lcut s 精確模式,返回list型別 jieba.lcut s,cut all true...

簡明的jieba中文分詞教程

jieba是一種中文分詞工具,比較好用。獲取鏈結 支援三種分詞模式 seglist jieba.cut 雪見緩緩睜開眼睛又驚又喜 cut all true 全模式 print f 全模式 join seglist 全模式 雪 見 緩緩 睜開 睜開眼 睜開眼睛 開眼 眼睛 又驚又喜seglist ji...

jieba庫的使用

jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 cmd命令列 pip install jieba jieba分詞依靠中文詞庫 利用乙個中文詞庫,確定漢字之間的關聯概率 漢字...