pip安裝: pip install jieba
精確模式:
將句子最精確的切開,適合文字分析
全模式:
把句子中所有可以成詞的詞語都掃瞄出來,
速度非常之快,但是不能解決歧義
搜尋引擎模式:
在精確模式的基礎上,
對長詞再次分割,提高召回率,
適合用於搜尋引擎分詞
jieba.lcut(s)
精確模式,返回乙個列表型別。
jieba.lcut(s)是最常用的中文分詞函式,
用於精確模式,即,
將字串分割成等量的中文片語,
返回結果是列表型別。
精確模式不產生冗餘性。
jieba.lcut(s, cut_all=true)
全模式,返回乙個列表型別,
即,將字串的所有分詞可能均列出來,
返回結果是列表型別,冗餘性最大。
相比於精確模式,全模式會找出所有分詞可能,
比如:「計算機」,會被分詞為:「計算」,「計算機」和"算機"。
jieba.lcut_for_search(s)
搜尋引擎模式,返回乙個列表型別,該模式首先執行精確模式,
然後再對其中長詞進一步切分獲得最終結果。如:接下來的例子中,
」計算機「,被再次分詞成3個詞語。存在一定的冗餘性,但是冗餘性
相比全模式要小。
jieba.add_word(w)
向分詞詞典中增加新詞w,
顧名思義,用來向jieba詞庫中增加新的單詞。
實驗**展示:
python 3.7
.4(tags/v3.
7.4:e09359112e, jul 8
2019,20
:34:20
)[msc v.
1916
64bit
(amd64
)] on win32
type "help",,
"credits" or "license()"
for more information.
>>>
import jieba
>>> ls = jieba.
lcut
("全國計算機等級考試python科目"
)building prefix dict from the default dictionary ...
loading model from cache c
loading model cost 0.816 seconds.
prefix dict has been built successfully.
>>>
print
(ls)
['全國'
,'計算機'
,'等級'
,'考試'
,'python'
,'科目'
]>>>
>>>
>>> ls = jieba.
lcut
("全國計算機等級考試python科目"
,cut_all=true)
>>>
print
(ls)
['全國'
,'國計'
,'計算'
,'計算機'
,'算機'
,'等級'
,'考試'
,'python'
,'科目'
]>>>
>>>
>>>
>>> ls = jieba.
lcut_for_search
("全國計算機等級考試python科目"
)>>>
print
(ls)
['全國'
,'計算'
,'算機'
,'計算機'
,'等級'
,'考試'
,'python'
,'科目'
]>>>
>>>
>>>
>>> jieba.
add_word
("python科目"
)>>> ls = jieba.
lcut
("全國計算機等級考試python科目"
)>>>
print
(ls)
['全國'
,'計算機'
,'等級'
,'考試'
,'python科目'
]>>>
>>>
>>>
Python第三方庫jieba中文分詞庫及應用
1.jieba庫是優秀的中文分詞第三方庫。英文文字中,各個單詞間本來就有空格將它們隔開,而在中文文字裡面,詞語和詞語之間是相連的,不能通過簡單的以空格來切片文章 通過str.split 方法 因此就需要用到jieba庫。2.jieba庫的分詞模式 1.jieba分詞依靠中文詞庫。利用乙個中文詞庫,確...
PyThon第三方庫
本文 自 戀花蝶的部落格 今天公司停電,沒上班。跑上來更新個部落格,跟大家分享一下我常用的幾個第三方 python 庫。python 語言之所以能夠如此流行,除了本身內建許多程式庫來保障快速開發之外,目不睱接的第三方庫也是一大主因。結合我目前的工作 網遊開發 我常用的幾個第三方庫如下 wxpytho...
python 第三方庫
requests 模組 具體詳見 requests 是用python語言編寫的第三方庫,基於 urllib,採用 apache2 licensed 開源協議的 http 庫。它比 urllib 更加方便,完全滿足 http 測試需求,多用於介面測試 常用介面 1.requests.request m...