只對長詞起作用
對如果定義的詞比jieba自己分的短,則沒有用
下面是三種分詞方式的影響
[python]
view plain
copy
#encoding=utf-8
import
jieba
import
os
import
sys
test_text="**號碼查詢"
#精確模式
seg_list = jieba.cut(test_text,cut_all=false
) seg_list = " "
.join(seg_list)
"cut_all=false: "
+seg_list
#全模式
seg_list2 = jieba.cut(test_text,cut_all=true
) seg_list2 = " "
.join(seg_list2)
"cut_all=true: "
+seg_list2
# 搜尋引擎模式
seg_list3 = jieba.cut_for_search(test_text)
seg_list3 = " "
.join(seg_list3)
"cut_for_search: "
+seg_list3
輸出:[python]
view plain
copy
cut_all=
false
: **號碼 查詢
cut_all=true
: ** **號碼 號碼 查詢
cut_for_search: ** 號碼 **號碼 查詢
[python]
view plain
copy
jieba.add_word(
"電")
輸出:[python]
view plain
copy
cut_all=
false
: **號碼 查詢
cut_all=true
: ** **號碼 號碼 查詢
cut_for_search: ** 號碼 **號碼 查詢
[python]
view plain
copy
jieba.add_word(
"**號"
)
輸出:[python]
view plain
copy
cut_all=
false
: **號碼 查詢
cut_all=true
: ** **號 **號碼 號碼 查詢
cut_for_search: ** 號碼 **號 **號碼 查詢
[python]
view plain
copy
jieba.add_word(
"**號碼查詢"
)
輸出:[python]
view plain
copy
cut_all=
false
: **號碼查詢
cut_all=true
: ** **號碼 **號碼查詢 號碼 查詢
cut_for_search: ** 號碼 查詢 **號碼查詢
jieba結巴分詞加入自定義詞典
新增自定義詞典 動態調整詞典 參考jieba官方文件 jieba.cut 以及 jieba.cut for search 返回的結構都是乙個可迭代的 generator,可以使用 for 迴圈來獲得分詞後得到的每乙個詞語 unicode 或者用 jieba.lcut 以及 jieba.lcut fo...
結巴分詞jieba新增自定義詞典
結巴分詞新增自定義詞典,有時候很有必要。比如下面這段話 test text 我們的健康碼也是綠色的,這憑什麼就限制我們的就醫!如果使用預設的分詞,那麼,健康碼 這個詞會分成 健康 和 碼 這裡可以使用詞典方式,新增自定義詞典。新建乙個txt檔案,在檔案裡輸入 健康碼 以utf 8形式儲存,這裡使用p...
jieba分詞自定義詞庫無效果
首先我自定義了乙個詞庫,內容為 乾清宮 5 太和殿 3 黃琉璃瓦 3 午門 1 我是乙個 5 凱的試接 1我的分詞內容為 故宮的著名景點包括乾清宮 太和殿和黃琉璃瓦等我是乙個好孩子我是乙個好孩子我是乙個好孩子 故宮的著名景點包括乾清宮 太和殿和黃琉璃瓦等凱的試接 故宮的著名景點包括乾清宮 太和殿和黃...