四、詞性標註
五、並行分詞
六、返回詞語在原文的起止位置
注意:hmm模型(隱馬爾可夫模型),可以識別新詞
jieba.load_userdict(filename)
filename為自定義詞典的路徑
在使用的時候,詞典的格式和jieba分詞器本身的分詞器中的詞典格式必須保持一致,乙個詞佔一行,每一行分成三部分,一部分為詞語,一部分為詞頻(可以省略),最後為詞性(可以省略),用空格隔開。
命令:
jieba.analyse.extract_tags(sentence,topk=20,withweight=false,allowpos=
())
import jieba.analyse
s="我好想去重慶找大瑞玩然後一起吃火鍋喝冰奶茶啊"
for a,b in jieba.analyse.extract_tags(s,withweight=true):
print(a,b)
結果:
找大瑞 1.7078239289857142
喝冰 1.7078239289857142
吃火鍋 1.5578493397714286
奶茶 1.4661559274571427
重慶 0.9241968538314286
一起 0.6959970096985714
然後 0.6867600907842857
和extract_tags的不同好像在於textrank進行了歸一化。
命令:
jieba.analyse.textrank(sentence,topk=20,withweight=false,allowpos)
引數:和上述一樣。
例子:
import jieba.analyse
s="不想上學啊啊啊啊"
a= jieba.analyse.textrank(s,withweight=true)
print(a)
結果:
[
('不想', 1.0), (
'上學', 0.9961264494011037)
]
切出來的結果是generator。
例子:
s=
"這個十一月俺要去南京看楓葉、吃生煎和鍋貼。"
for c,d in jieba.posseg.cut(s):
print(c,d)
結果:
這個 r
十一月 m
俺 r要 v
去 v南京 ns
看 v楓葉 n
、 x吃生 v
煎 v和 c
鍋貼 n
。 x
paddle模式詞性:
標籤含義
標籤含義
標籤含義
標籤含義
n普通名詞
f方位名詞
s處所名詞t時間
nr人名
ns地名
nt機構名
nw作品名
nz其他專名
v普通動詞
vd動副詞
vn名動詞
a形容詞
ad副行詞
an名形詞d副詞
m數量詞q量詞
r代詞p介詞
c連詞u助詞
xc其他虛詞
w標點符號
per人名
loc地名
org機構名
time
時間注意:windows不支援並行分詞
命令:jieba.enable_parallel(4)
,引數代表並行程序數
jieba.disable_parallel()
,關閉並行分詞模式
使用jieba.tokenize
可以返回詞語在原文的起始位置
注意:輸入引數只接受unicode
result = jieba.tokenize(u'上海益民食品一廠****'
)print(
"【普通模式】"
)for tk in result:
print(
"word: \t\t start: \t\t end: ".format(tk[0],tk[1],tk[2]
))
中文分詞模組 jieba筆記
裡面主要羅列一些常用方法 usr bin env python coding utf 8 import jieba jieba.load userdict mydict.txt 匯入自己的詞典 jieba.add word 西城校區 新增詞進入詞典 jieba.del word 去了 在詞典中刪除乙...
中文分詞 jieba
支援繁體分詞 支援自定義詞典 mit 授權協議 對 python 2 3 均相容 試圖將句子最精確地切開,適合文字分析 import jieba def main s u 我在人民廣場吃著炸雞 cut jieba.cut s print type cut for word in cut print ...
中文分詞工具 Jieba
jieba分詞值基於規則和統計這兩類方法。其首先基於字首詞典進行詞圖掃瞄,字首詞典是指詞典中的詞按照字首的包含順序排列的,從而形成一種層級包含結構。這種字首詞典的好處便是可以快速構建包含全部可能分詞結果的有向無環圖,這個圖包含多條分詞路徑,無環是指節點間不構成閉環。然後基於標註語料,使用動態規劃演算...