Python分詞模組推薦 jieba中文分詞

一、結巴中文分詞採用的演算法

二、結巴中文分詞支援的分詞模式

目前結巴分詞支援三種分詞模式：

精確模式，試圖將句子最精確地切開，適合文字分析；

全模式，把句子中所有的可以成詞的詞語都掃瞄出來, 速度非常快，但是不能解決歧義；

搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜尋引擎分詞。

# -*- coding:utf-8 -*-
import jieba
text = '我來到北京清華大學'
default_mode =jieba.cut(text)
full_mode = jieba.cut(text,cut_all=true)
search_mode = jieba.cut_for_search(text)
print "精確模式:","/".join(default_mode)
print "全模式:","/".join(full_mode)
print "搜尋引擎模式:","/".join(search_mode)
精確模式: 我/來到/北京/清華大學
全模式: 我/來到/北京/清華/清華大學/華大/大學
搜尋引擎模式: 我/來到/北京/清華/華大/大學/清華大學

上述**解釋：

三、結巴中文分詞的其他功能

1、新增或管理自定義詞典

結巴的所有字典內容存放在dict.txt，你可以不斷的完善dict.txt中的內容。

3.詞性標註

對一句話進行切分後，對每個詞進行詞性標註，是名詞還是動詞

具體示例：

# -*- coding:utf-8 -*-
import jieba.analyse
text = "結巴中文分詞模組是乙個非常好的python分詞元件"
tags = jieba.analyse.extract_tags(text,2)

#! /usr/bin/env python2.7
#coding:utf-8
import jieba
import jieba.posseg
print "full mode:","/".join(jieba.cut('始游泳'))
print "full mode:","/".join(jieba.cut('過郭美美'))
s=["我勒個去","費打**","響全世界","線情人"]
for i in s:
pos=
seg=jieba.posseg.cut(i)
for j in seg:
print j.word,'/',j.flag,'#',
print  
#----------------------------------
string="當我輸給青雉的時候就在想，在以後的航海中再遇到像他那麼強的對手的時候"
seg=jieba.posseg.cut(string)
pos=
for i in seg:
for i in pos:
print i[0],'/',i[1],"#",

輸出結果：

full mode:building prefix dict from e:\python27\lib\site-packages\jieba\dict.txt ... loading model cost 0.941999912262 seconds. prefix dict has been built succesfully. 始/游泳 full mode: 過/郭美美我 / r # 勒 / v # 個 / q # 去 / v # 費 / v # 打** / l # 響 / zg # 全世界 / n # 線 / n # 情人 / n #

當 / p # 我 / r # 輸給 / v # 青雉 / n # 的 / uj # 時候 / n # 就 / d # 在 / p # 想 / v # ， / x # 在 / p # 以後 / f # 的 / uj # 航海 / n # 中 / f # 再 / d # 遇到 / v # 像 / v # 他 / r # 那麼 / r # 強 / a # 的 / uj # 對手 / v # 的 / uj # 時候 / n #

更多資訊請檢視：

Python分詞模組推薦 jieba中文分詞

Python記錄日誌模組推薦 loguru！

python中文分詞結巴分詞

中文分詞模組 jieba筆記

Python分詞模組推薦 jieba中文分詞

Python記錄日誌模組推薦 loguru！

python中文分詞 結巴分詞

中文分詞模組 jieba筆記

相關推薦

python中文分詞結巴分詞