python中文分詞 結巴分詞

2021-09-06 14:18:19 字數 1138 閱讀 6407

中文分詞是中文文字處理的乙個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點:

基於trie樹結構實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖(dag)

採用了動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合

對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了viterbi演算法

安裝(linux環境)

模式

預設模式,試圖將句子最精確地切開,適合文字分析

全模式,把句子中所有的可以成詞的詞語都掃瞄出來,適合搜尋引擎

介面

待分詞的字串可以是gbk字串、utf-8字串或者unicode

jieba.cut返回的結構是乙個可迭代的generator,可以使用for迴圈來獲得分詞後得到的每乙個詞語(unicode),也可以用list(jieba.cut(...))轉化為list  

例項

#

! -*- coding:utf-8 -*-

import

jieba

seg_list = jieba.cut("

我來到北京清華大學

", cut_all =true)

print

"full mode:

", '

'.join(seg_list)

seg_list = jieba.cut("

我來到北京清華大學")

print

"default mode:

", '

'.join(seg_list)

結果

實現原理

1. 

python中文分詞工具 結巴分詞jieba

支援三種分詞模式 精確模式,試圖將句子最精確地切開,適合文字分析 全模式,把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解決歧義 搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。支援繁體分詞 支援自定義詞典 基於字首詞典實現高效的詞圖掃瞄,生成句子中...

結巴中文分詞

人工智慧領域文字分類中最基本的就是分詞,分詞中最基礎的莫過於結巴分詞。分詞,顧名思義就是把一句話劃分成若干的詞語,只不過如今我們是讓電腦自動進行分詞。結巴中文分詞支援的三種模式分別為 1.全模式 把句子中所有成詞的詞語都掃瞄出來,速度非常快,但不能消除歧義。分詞結果 jieba.cut 文字名稱,c...

python結巴分詞

中文分詞是中文文字處理的乙個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點 基於trie樹結構實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用了動態規劃查詢最大概率路徑,找出基於詞頻的最大切分組合 對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了...