結巴中文分詞使用學習（python）

精確模式（預設）：試圖將句子最精確地切開，適合文字分析；

全模式，把句子中所有的可以成詞的詞語都掃瞄出來，但是不能解決歧義；

搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，該方法適合用於搜尋引擎構建倒排索引的分詞，粒度比較細。

注意：jieba.cut以及jieba.cut_for_search返回的結構都是乙個可迭代的 generator，並不是乙個list列表。

示例**1

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""功能：結巴分詞測試，基本分詞功能
"""import jieba
# 分詞模式
seg = jieba.cut("這是一本關於資訊檢索的書", cut_all=true)  # cut_all=true，全模式
print(u"全模式分詞: " + "/ ".join(seg))
seg = jieba.cut("這是一本關於資訊檢索的書", cut_all=false)  # cut_all=false，精確模式
print(u"精確模式分詞: " + "/ ".join(seg))
seg = jieba.cut("他來到了網易杭研大廈")  # 預設是精確模式
print(", ".join(seg))
seg = jieba.cut_for_search("小明碩士畢業於中國科學院計算所，後在日本京都大學深造")  # 搜尋引擎模式
print(", ".join(seg))

用法：jieba.load_userdict(file_name)

file_name 為檔案類物件或自定義詞典的路徑

詞典格式：乙個詞佔一行；每一行分三部分：詞語、詞頻（可省略）、詞性（可省略）；用空格隔開，順序不可顛倒。

詞典示例：

雲計算 5 李小福 2 nr 創新辦 3 ieasy_install 3 eng 好用 300 韓玉賞鑑 3 nz 八一雙鹿 3 nz 臺中凱特琳 nz

edu trust認證 2000

示例**2

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""功能：結巴分詞測試，新增詞典
"""import jieba
# 新增自定義詞典
jieba.load_userdict("userdic.txt")
seg = jieba.cut("這是一本關於資訊檢索的書")
print
"/ ".join(seg)
if __name__ == "__main__":
pass

採用和 ictclas （nlpir）相容的標記法。

words = pseg.cut("這是一本關於資訊檢索的書")
forword, flag in
words:
print ('%s %s' % (word, flag))

備註：在anaconda python下，上述print報錯方式，原因暫時未知。

支援繁體分詞

並行分詞

返回詞語在原文的起止位置

參考文獻

官方說明：

其他：

結巴中文分詞

人工智慧領域文字分類中最基本的就是分詞，分詞中最基礎的莫過於結巴分詞。分詞，顧名思義就是把一句話劃分成若干的詞語，只不過如今我們是讓電腦自動進行分詞。結巴中文分詞支援的三種模式分別為 1.全模式把句子中所有成詞的詞語都掃瞄出來，速度非常快，但不能消除歧義。分詞結果 jieba.cut 文字名稱,c...

結巴中文分詞安裝與使用

1 安裝 pip install jieba 2 示例 encoding utf 8 import jieba seg list jieba.cut 我來到北京清華大學 cut all true print full mode join seg list 輸出我來到北京清華清華大學華大 ...

結巴中文分詞之PHP擴充套件

array jieba string text,bool use extract false,long extract limit 10 git clone cd phpjieba cjieba make cd phpize configure make make installextension ...

結巴中文分詞使用學習（python）

結巴中文分詞

結巴中文分詞安裝與使用

結巴中文分詞之PHP擴充套件

相關推薦