jieba 分詞自定義詞典問題

只對長詞起作用

對如果定義的詞比jieba自己分的短，則沒有用

下面是三種分詞方式的影響

[python]

view plain

copy

#encoding=utf-8

import

jieba

import

sys

test_text="**號碼查詢"

#精確模式

seg_list = jieba.cut(test_text,cut_all=false

) seg_list = " "

.join(seg_list)

"cut_all=false: "

+seg_list

#全模式

seg_list2 = jieba.cut(test_text,cut_all=true

) seg_list2 = " "

.join(seg_list2)

"cut_all=true: "

+seg_list2

# 搜尋引擎模式

seg_list3 = jieba.cut_for_search(test_text)

seg_list3 = " "

.join(seg_list3)

"cut_for_search： "

+seg_list3

輸出：[python]

view plain

copy

cut_all=

false

: **號碼查詢

cut_all=true

: ** **號碼號碼查詢

cut_for_search： ** 號碼 **號碼查詢

[python]

view plain

copy

jieba.add_word(

"電")

輸出：[python]

view plain

copy

cut_all=

false

: **號碼查詢

cut_all=true

: ** **號碼號碼查詢

cut_for_search： ** 號碼 **號碼查詢

[python]

view plain

copy

jieba.add_word(

"**號"

)

輸出：[python]

view plain

copy

cut_all=

false

: **號碼查詢

cut_all=true

: ** **號 **號碼號碼查詢

cut_for_search： ** 號碼 **號 **號碼查詢

[python]

view plain

copy

jieba.add_word(

"**號碼查詢"

)

輸出：[python]

view plain

copy

cut_all=

false

: **號碼查詢

cut_all=true

: ** **號碼 **號碼查詢號碼查詢

cut_for_search： ** 號碼查詢 **號碼查詢

jieba結巴分詞加入自定義詞典

新增自定義詞典動態調整詞典參考jieba官方文件 jieba.cut 以及 jieba.cut for search 返回的結構都是乙個可迭代的 generator，可以使用 for 迴圈來獲得分詞後得到的每乙個詞語 unicode 或者用 jieba.lcut 以及 jieba.lcut fo...

結巴分詞jieba新增自定義詞典

結巴分詞新增自定義詞典，有時候很有必要。比如下面這段話 test text 我們的健康碼也是綠色的，這憑什麼就限制我們的就醫！如果使用預設的分詞，那麼，健康碼這個詞會分成健康和碼這裡可以使用詞典方式，新增自定義詞典。新建乙個txt檔案，在檔案裡輸入健康碼以utf 8形式儲存，這裡使用p...

jieba分詞自定義詞庫無效果

首先我自定義了乙個詞庫，內容為乾清宮 5 太和殿 3 黃琉璃瓦 3 午門 1 我是乙個 5 凱的試接 1我的分詞內容為故宮的著名景點包括乾清宮太和殿和黃琉璃瓦等我是乙個好孩子我是乙個好孩子我是乙個好孩子故宮的著名景點包括乾清宮太和殿和黃琉璃瓦等凱的試接故宮的著名景點包括乾清宮太和殿和黃...

jieba 分詞自定義詞典問題

jieba結巴分詞加入自定義詞典

結巴分詞jieba新增自定義詞典

jieba分詞自定義詞庫無效果

相關推薦