jieba分詞自定義詞庫無效果

2021-09-26 03:28:35 字數 779 閱讀 1896

首先我自定義了乙個詞庫,內容為:

乾清宮 5

太和殿 3

黃琉璃瓦 3

午門 1

我是乙個 5

凱的試接 1

我的分詞內容為

故宮的著名景點包括乾清宮、太和殿和黃琉璃瓦等我是乙個好孩子我是乙個好孩子我是乙個好孩子

故宮的著名景點包括乾清宮、太和殿和黃琉璃瓦等凱的試接

故宮的著名景點包括乾清宮、太和殿和黃琉璃瓦等故宮的著名景點包括乾清宮、太和殿和黃琉璃瓦等

故宮的著名景點包括乾清宮、太和殿和黃琉璃瓦等

分詞後的效果:

故宮 的 著名景點 包括 乾清宮 、 太和殿 和 黃琉璃瓦 等 我 是 乙個 好孩子 我 是 乙個 好孩子 我 是 乙個 好孩子 

故宮 的 著名景點 包括 乾清宮 、 太和殿 和 黃琉璃瓦 等 凱的試接

故宮 的 著名景點 包括 乾清宮 、 太和殿 和 黃琉璃瓦 等 故宮 的 著名景點 包括 乾清宮 、 太和殿 和 黃琉璃瓦 等

故宮 的 著名景點 包括 乾清宮 、 太和殿 和 黃琉璃瓦 等

對於  我是乙個5  這個不想被分開的詞,分詞後還是被分開了,後來看了jieba自己的分詞詞典dict.txt,發現在詞典中有三個詞:我  ,是  ,乙個 。所以自己定義的  我是乙個  這個詞就沒有效果了。

新增的  凱的試接  因為dict.txt中沒有這個詞,就正常執行了。

如果還想按照自己自定義的詞典分詞,需要把dict.txt中相應的詞刪掉。

jieba 分詞自定義詞典問題

只對長詞起作用 對如果定義的詞比jieba自己分的短,則沒有用 下面是三種分詞方式的影響 python view plain copy encoding utf 8 import jieba import os import sys test text 號碼查詢 精確模式 seg list jieb...

jieba結巴分詞加入自定義詞典

新增自定義詞典 動態調整詞典 參考jieba官方文件 jieba.cut 以及 jieba.cut for search 返回的結構都是乙個可迭代的 generator,可以使用 for 迴圈來獲得分詞後得到的每乙個詞語 unicode 或者用 jieba.lcut 以及 jieba.lcut fo...

結巴分詞jieba新增自定義詞典

結巴分詞新增自定義詞典,有時候很有必要。比如下面這段話 test text 我們的健康碼也是綠色的,這憑什麼就限制我們的就醫!如果使用預設的分詞,那麼,健康碼 這個詞會分成 健康 和 碼 這裡可以使用詞典方式,新增自定義詞典。新建乙個txt檔案,在檔案裡輸入 健康碼 以utf 8形式儲存,這裡使用p...