Python jieba結巴分詞原理及用法解析

2022-09-27 11:45:07 字數 1664 閱讀 9141

1、簡要說明

結巴分詞支援三種分詞模式,支援繁體字,支援自定義詞典

2、三種分詞模式

全模式:把句子中所有的可以成詞的詞語都掃瞄出來, 速度非常快,但是不能解決歧義

精簡模式:把句子最精確的分開,不會新增多餘單詞,看起來就像是把句子分割一下

搜尋引擎模式:在精簡模式下,對長詞再度切分

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':

str1 = '我去北京天安門廣場跳舞'

a = jieba.lcut(str1, cut_all=true) # 全模式

print('全模式:{}'.format(a))

b = jieba.lcut(str1, cut_all=false) # 精簡模式

print('精簡模式:{}'.format(b))

c = jieba.lcut_for_search(str1) # 搜尋引擎模式

print('搜尋引擎模式:{}'.format(c))

執行3、某個詞語不能被分開

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':

str1 = '桃花俠大戰菊花怪'

b = jieba.lcut(str1, cut_all=false) # 精簡模式

print('精簡模式:{}'.format(b))

# 如果不把桃花俠分開

jieba.add_word('桃花俠')

d = jieba.lcut(str1) # 預設是精簡模式

print(d)

執行4、 某個單詞必須被分開

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':

# hmm引數,預設為true

'''hmm 模型,即隱馬爾可夫模型(hidden markov model, hmm),是一種基於概率的統計分析模型,

用來描述乙個系統隱性狀態的轉移和隱性狀態的表現概率。

在 jieba 中,對於未登入到詞庫的詞,使用程式設計客棧了基於漢字成詞能力的 hmm 模型和 viterbi 演算法,

其大致原理是:

採用四個隱含狀態,分別表示為單字成詞,www.cppcns.com片語的開頭,片語的中間,片語的結尾。

通過標註好的分詞訓練集,可以得到 hmm 的各個引數,然後使用 viterbi 演算法來解釋測試集,得到分詞結果。

'''str1 = '桃花俠大戰菊花怪'

b = jieba.lcut(stfqzutpr1, cut_all=false, hmm=false) # 精簡模式,且不使用hmm模型

print('精簡模式:{}'.format(b))

# 分開大戰為大和戰

jieba.suggest_freq(('大', '戰'), true)

e = jieba.lcut(str1, hmm=false) # 不使用hmm模型

print('分開:{}'.format(e))

執行本文標題: python jieba結巴分詞原理及用法解析

本文位址: /jiaoben/python/361632.html

python結巴分詞

中文分詞是中文文字處理的乙個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點 基於trie樹結構實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用了動態規劃查詢最大概率路徑,找出基於詞頻的最大切分組合 對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了...

結巴分詞jieba

全模式text 我來到北京清華大學 seg list jieba.cut text,cut all true print u 全模式 join seg list 精確模式 seg list jieba.cut text,cut all false print u 精確模式 join seg list...

python中文分詞 結巴分詞

中文分詞是中文文字處理的乙個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點 基於trie樹結構實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用了動態規劃查詢最大概率路徑,找出基於詞頻的最大切分組合 對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了...