1.預設情況
# 預設情況
import jieba
str1 =
"查詢machine-1234的產品說明書"
for w in jieba.cut(str1)
:print
(w)# 執行結果
>>
>查詢
>>
>machine
>>
>
->>
>
1234
>>
>的
>>
>產品
>>
>說明書
2.利用自定義字典通常情況下,我們可以載入預定義字典來包含詞庫里不存在的詞,以達到正確分詞的效果
# 利用使用者自定義字典
import jieba
str1 =
"查詢machine-1234的產品說明書"
jieba.load_userdict(
"./external_dict/machines.txt"
)for w in jieba.cut(str1)
:print
(w)# 執行結果
>>
>查詢
>>
>machine-
1234
>>
>的
>>
>產品
>>
>說明書
3.利用正規表示式
import re
import jieba
str1 =
"查詢machine-1234的產品說明書instruction:*:*:yyyy:2020"
# 動態新增片語
spec_words = re.findall(
'[-.*:a-za-z0-9]+'
, str1)
for word in spec_words:
jieba.add_word(word, tag=
'nz'
)# 修改jieba包init.py中正規表示式
jieba.re_han_default = re.
compile
('(.+)'
, re.u)
for w in jieba.cut(str1)
:print
(w)# 執行結果
>>
>查詢
>>
>machine-
1234
>>
>的
>>
>產品
>>
>說明書
>>
>instruction:*:
*:yyyy:
2020
關鍵字 php提取關鍵字中文分詞
每日17點準時技術乾貨分享 需求 做seo的keywords時,需要從標題或者正文裡提取關鍵字 2.封裝 loaddict pa setsource content pa startanalysis true tags pa getfinallykeywords num 獲取文章中的n個關鍵字 re...
階段二 jieba關鍵字提取
content 該課題針對tdi 甲苯二異氰酸酯 生產廢渣汙染問題,將tdi廢渣進行催化水解生成tda 甲苯二胺 單體,實現了資源再生。創新點如下 1 確定了在溫和反應條件下tda高收率的水解催化劑和相轉移催化劑 2 研發了高粘度 高沸點物料的連續化液固分離技術,實現了萬噸級工業化生產,並形成了工藝...
this關鍵字和super關鍵字
this關鍵字和super關鍵字都必須放在構造方法的第一行,所有兩個關鍵字不能同時存在,任選其一即可,只需保證子類的所有構造方法呼叫父類的構造方法即可 this關鍵字的應用 this關鍵字用於區分區域性變數和成員變數的同名問題 有this關鍵字的是成員變數,或者是誰呼叫我,訪問的就是誰 this關鍵...