Python第三方庫jieba學習筆記

2021-10-10 06:51:34 字數 2498 閱讀 7344

pip安裝: pip install jieba

精確模式:

將句子最精確的切開,適合文字分析
全模式:

把句子中所有可以成詞的詞語都掃瞄出來,

速度非常之快,但是不能解決歧義

搜尋引擎模式:

在精確模式的基礎上,

對長詞再次分割,提高召回率,

適合用於搜尋引擎分詞

jieba.lcut(s)

精確模式,返回乙個列表型別。

jieba.lcut(s)是最常用的中文分詞函式,

用於精確模式,即,

將字串分割成等量的中文片語,

返回結果是列表型別。

精確模式不產生冗餘性。

jieba.lcut(s, cut_all=true)

全模式,返回乙個列表型別,

即,將字串的所有分詞可能均列出來,

返回結果是列表型別,冗餘性最大。

相比於精確模式,全模式會找出所有分詞可能,

比如:「計算機」,會被分詞為:「計算」,「計算機」和"算機"。

jieba.lcut_for_search(s)

搜尋引擎模式,返回乙個列表型別,該模式首先執行精確模式,

然後再對其中長詞進一步切分獲得最終結果。如:接下來的例子中,

」計算機「,被再次分詞成3個詞語。存在一定的冗餘性,但是冗餘性

相比全模式要小。

jieba.add_word(w)

向分詞詞典中增加新詞w,

顧名思義,用來向jieba詞庫中增加新的單詞。

實驗**展示:

python 3.7

.4(tags/v3.

7.4:e09359112e, jul 8

2019,20

:34:20

)[msc v.

1916

64bit

(amd64

)] on win32

type "help",,

"credits" or "license()"

for more information.

>>>

import jieba

>>> ls = jieba.

lcut

("全國計算機等級考試python科目"

)building prefix dict from the default dictionary ...

loading model from cache c

loading model cost 0.816 seconds.

prefix dict has been built successfully.

>>>

print

(ls)

['全國'

,'計算機'

,'等級'

,'考試'

,'python'

,'科目'

]>>>

>>>

>>> ls = jieba.

lcut

("全國計算機等級考試python科目"

,cut_all=true)

>>>

print

(ls)

['全國'

,'國計'

,'計算'

,'計算機'

,'算機'

,'等級'

,'考試'

,'python'

,'科目'

]>>>

>>>

>>>

>>> ls = jieba.

lcut_for_search

("全國計算機等級考試python科目"

)>>>

print

(ls)

['全國'

,'計算'

,'算機'

,'計算機'

,'等級'

,'考試'

,'python'

,'科目'

]>>>

>>>

>>>

>>> jieba.

add_word

("python科目"

)>>> ls = jieba.

lcut

("全國計算機等級考試python科目"

)>>>

print

(ls)

['全國'

,'計算機'

,'等級'

,'考試'

,'python科目'

]>>>

>>>

>>>

Python第三方庫jieba中文分詞庫及應用

1.jieba庫是優秀的中文分詞第三方庫。英文文字中,各個單詞間本來就有空格將它們隔開,而在中文文字裡面,詞語和詞語之間是相連的,不能通過簡單的以空格來切片文章 通過str.split 方法 因此就需要用到jieba庫。2.jieba庫的分詞模式 1.jieba分詞依靠中文詞庫。利用乙個中文詞庫,確...

PyThon第三方庫

本文 自 戀花蝶的部落格 今天公司停電,沒上班。跑上來更新個部落格,跟大家分享一下我常用的幾個第三方 python 庫。python 語言之所以能夠如此流行,除了本身內建許多程式庫來保障快速開發之外,目不睱接的第三方庫也是一大主因。結合我目前的工作 網遊開發 我常用的幾個第三方庫如下 wxpytho...

python 第三方庫

requests 模組 具體詳見 requests 是用python語言編寫的第三方庫,基於 urllib,採用 apache2 licensed 開源協議的 http 庫。它比 urllib 更加方便,完全滿足 http 測試需求,多用於介面測試 常用介面 1.requests.request m...