Python jieba庫的使用

2021-10-22 00:06:38 字數 2345 閱讀 7687

jieba 是 python 中乙個重要的第三方中文分詞函式庫

對於一段英文文字,例如,「i like python and big data」,如果希望提取其中的單詞,只要使用字串處理的split()方法即可。

例如

str

="i like python and big data"

print

(str

.split(

))

[

'i',

'like'

,'python'

,'and'

,'big'

,'data'

]

對於一段中文文字,如"我的專業是資料科學與大資料技術",需要提取其中的詞語,需要如下操作。

例如

import jieba

str=

"我的專業是資料科學與大資料技術"

print

(jieba.lcut(

str)

)

[

'我',

'的',

'專業'

,'是'

,'資料'

,'科學'

,'與'

,'大'

,'資料'

,'技術'

]

jieba 庫中包含的主要函式

函式描述

jieba.cut(s)

精確模式,返回乙個可迭代的資料型別

jieba.cut(s,cut_all=true)

全模式,輸出文字s中所有可能的單詞

jieba.cut_for_search(s)

搜尋引擎模式,適合搜尋引擎建立索引的分詞結果

jieba.lcut(s)

精確模式,返回乙個列表型別,建議使用

jieba.lcut(s,cut_all=true)

全模式,返回乙個列表型別,建議使用

jieba.lcut_for_search(s)

搜尋引擎模式,返回乙個列表型別,建議使用

jieba.add_word(w)

向分詞詞典中增加新詞w

例如

import jieba

str=

"東漢末年分三國當時有三個國家"

print

(jieba.lcut(

str)

)print

(jieba.lcut(

str,cut_all=

true))

print

(jieba.lcut_for_search(

str)

)

[

'東漢'

,'末年'

,'分'

,'三國'

,'當時'

,'有'

,'三個'

,'國家'][

'東漢'

,'漢末'

,'末年'

,'分'

,'三國'

,'當時'

,'有'

,'三個'

,'國家'][

'東漢'

,'末年'

,'分'

,'三國'

,'當時'

,'有'

,'三個'

,'國家'

]

import jieba

str=

"峻熙同學在寫部落格"

# 函式可以較高概率識別自定義的新詞,比如名字或縮寫

print

(jieba.lcut(

str)

)str_1=

"你們在看不予時光度流年的部落格"

print

(jieba.lcut(str_1)

)jieba.add_word(

"不予時光度流年"

)# 將指定詞語加入到分詞庫

print

(jieba.lcut(str_1)

)

[

'峻熙'

,'同學'

,'在'

,'寫'

,'部落格'][

'你們'

,'在'

,'看'

,'不予'

,'時'

,'光度'

,'流年'

,'的'

,'部落格'][

'你們'

,'在'

,'看'

,'不予時光度流年'

,'的'

,'部落格'

]

8月隨筆 Python jieba庫的使用

函式 描述jieba.lcut s 精確模式,返回乙個列表型別的分詞結果 jieba.lcut s,cut all true 全模式jieba.lcut for search s 搜尋引擎模式,返回乙個列表型別的分詞結果,存在冗餘 jieba.add word w 向分詞詞典新增新詞w 如果您還未看...

使用python jieba庫進行中文分詞

jieba 結巴 中文分詞 做最好的 python 中文分詞元件 jieba chinese for to stutter chinese text segmentation built to be the best python chinese word segmentation module.功...

python jieba分詞庫的使用

測試環境 py3 win10 import jieba str test 有很多人擔心,美國一聲令下,會禁止所有的開源軟體被中國使用,這樣的擔憂是不必要的。返回迭代器 c1 jieba.cut str test c2 jieba.cut str test,cut all true c3 jieba....