裡面主要羅列一些常用方法
#!/usr/bin/env python
#-*- coding:utf-8 -*-
import
jieba
jieba.load_userdict(
"mydict.txt
") #
匯入自己的詞典
jieba.add_word('
西城校區
') #
新增詞進入詞典
jieba.del_word('
去了') #
在詞典中刪除乙個詞
jieba.suggest_freq('
臺中', true) #
可調節單個詞語的詞頻,使其能(或不能)被分出來
#注意:自動計算的詞頻在使用 hmm 新詞發現功能時可能無效。
seg_list = jieba.cut("
今天有關雲計算的會議很好,所以我去了西城校區的北京建築大學還有山東台中的人們
", hmm=false) #
預設是精確搜尋模式,
#seg_list = jieba.cut("今天有關雲計算的會議很好,所以我去了西城校區的北京建築大學",call_all=true) #全文搜尋模式
#seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") # 搜尋引擎模式
print"/
".join(seg_list)
總的來說很容易上手,大家可以通過pip install jieba來進行安裝
中文分詞jieba學習筆記
四 詞性標註 五 並行分詞 六 返回詞語在原文的起止位置 注意 hmm模型 隱馬爾可夫模型 可以識別新詞 jieba.load userdict filename filename為自定義詞典的路徑 在使用的時候,詞典的格式和jieba分詞器本身的分詞器中的詞典格式必須保持一致,乙個詞佔一行,每一行...
中文分詞 jieba
支援繁體分詞 支援自定義詞典 mit 授權協議 對 python 2 3 均相容 試圖將句子最精確地切開,適合文字分析 import jieba def main s u 我在人民廣場吃著炸雞 cut jieba.cut s print type cut for word in cut print ...
Python分詞模組推薦 jieba中文分詞
一 結巴中文分詞採用的演算法 二 結巴中文分詞支援的分詞模式 目前結巴分詞支援三種分詞模式 精確模式,試圖將句子最精確地切開,適合文字分析 全模式,把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解決歧義 搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞...