精確模式(預設):試圖將句子最精確地切開,適合文字分析;
全模式,把句子中所有的可以成詞的詞語都掃瞄出來,但是不能解決歧義;
搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,該方法適合用於搜尋引擎構建倒排索引的分詞,粒度比較細。
注意:jieba.cut以及jieba.cut_for_search返回的結構都是乙個可迭代的 generator,並不是乙個list列表。
示例**1
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""功能:結巴分詞測試,基本分詞功能
"""import jieba
# 分詞模式
seg = jieba.cut("這是一本關於資訊檢索的書", cut_all=true) # cut_all=true,全模式
print(u"全模式分詞: " + "/ ".join(seg))
seg = jieba.cut("這是一本關於資訊檢索的書", cut_all=false) # cut_all=false,精確模式
print(u"精確模式分詞: " + "/ ".join(seg))
seg = jieba.cut("他來到了網易杭研大廈") # 預設是精確模式
print(", ".join(seg))
seg = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") # 搜尋引擎模式
print(", ".join(seg))
用法:jieba.load_userdict(file_name)
file_name 為檔案類物件或自定義詞典的路徑
詞典格式:乙個詞佔一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略);用空格隔開,順序不可顛倒。
詞典示例:
雲計算 5
李小福 2 nr
創新辦 3
ieasy_install 3 eng
好用 300
韓玉賞鑑 3 nz
八一雙鹿 3 nz
臺中凱特琳 nz
edu trust認證 2000
示例**2#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""功能:結巴分詞測試,新增詞典
"""import jieba
# 新增自定義詞典
jieba.load_userdict("userdic.txt")
seg = jieba.cut("這是一本關於資訊檢索的書")
print
"/ ".join(seg)
if __name__ == "__main__":
pass
採用和 ictclas (nlpir)相容的標記法。
words = pseg.cut("這是一本關於資訊檢索的書")
forword, flag in
words:
print ('%s %s' % (word, flag))
備註:在anaconda python下,上述print報錯方式,原因暫時未知。
支援繁體分詞
並行分詞
返回詞語在原文的起止位置
參考文獻官方說明:
其他:
結巴中文分詞
人工智慧領域文字分類中最基本的就是分詞,分詞中最基礎的莫過於結巴分詞。分詞,顧名思義就是把一句話劃分成若干的詞語,只不過如今我們是讓電腦自動進行分詞。結巴中文分詞支援的三種模式分別為 1.全模式 把句子中所有成詞的詞語都掃瞄出來,速度非常快,但不能消除歧義。分詞結果 jieba.cut 文字名稱,c...
結巴中文分詞安裝與使用
1 安裝 pip install jieba 2 示例 encoding utf 8 import jieba seg list jieba.cut 我來到北京清華大學 cut all true print full mode join seg list 輸出 我 來到 北京 清華 清華大學 華大 ...
結巴中文分詞之PHP擴充套件
array jieba string text,bool use extract false,long extract limit 10 git clone cd phpjieba cjieba make cd phpize configure make make installextension ...