jieba分詞關鍵字含英文和特殊字元的處理方法

1.預設情況

# 預設情況
import jieba
str1 =
"查詢machine-1234的產品說明書"
for w in jieba.cut(str1)
:print
(w)# 執行結果
>>
>查詢
>>
>machine
>>
>
->>
>
1234
>>
>的
>>
>產品
>>
>說明書

2.利用自定義字典

通常情況下，我們可以載入預定義字典來包含詞庫里不存在的詞，以達到正確分詞的效果

# 利用使用者自定義字典
import jieba
str1 =
"查詢machine-1234的產品說明書"
jieba.load_userdict(
"./external_dict/machines.txt"
)for w in jieba.cut(str1)
:print
(w)# 執行結果
>>
>查詢
>>
>machine-
1234
>>
>的
>>
>產品
>>
>說明書

3.利用正規表示式

import re
import jieba
str1 =
"查詢machine-1234的產品說明書instruction:*:*:yyyy:2020"
# 動態新增片語
spec_words = re.findall(
'[-.*:a-za-z0-9]+'
, str1)
for word in spec_words:
jieba.add_word(word, tag=
'nz'
)# 修改jieba包init.py中正規表示式
jieba.re_han_default = re.
compile
('(.+)'
, re.u)
for w in jieba.cut(str1)
:print
(w)# 執行結果
>>
>查詢
>>
>machine-
1234
>>
>的
>>
>產品
>>
>說明書
>>
>instruction:*:
*:yyyy:
2020

關鍵字 php提取關鍵字中文分詞

每日17點準時技術乾貨分享需求做seo的keywords時，需要從標題或者正文裡提取關鍵字 2.封裝 loaddict pa setsource content pa startanalysis true tags pa getfinallykeywords num 獲取文章中的n個關鍵字 re...

階段二 jieba關鍵字提取

content 該課題針對tdi 甲苯二異氰酸酯生產廢渣汙染問題，將tdi廢渣進行催化水解生成tda 甲苯二胺單體，實現了資源再生。創新點如下 1 確定了在溫和反應條件下tda高收率的水解催化劑和相轉移催化劑 2 研發了高粘度高沸點物料的連續化液固分離技術，實現了萬噸級工業化生產，並形成了工藝...

this關鍵字和super關鍵字

this關鍵字和super關鍵字都必須放在構造方法的第一行，所有兩個關鍵字不能同時存在，任選其一即可，只需保證子類的所有構造方法呼叫父類的構造方法即可 this關鍵字的應用 this關鍵字用於區分區域性變數和成員變數的同名問題有this關鍵字的是成員變數，或者是誰呼叫我，訪問的就是誰 this關鍵...

jieba分詞關鍵字含英文和特殊字元的處理方法

關鍵字 php提取關鍵字中文分詞

階段二 jieba關鍵字提取

this關鍵字和super關鍵字

相關推薦