中文分詞jieba學習筆記

2021-10-25 03:41:58 字數 2426 閱讀 6647

四、詞性標註

五、並行分詞

六、返回詞語在原文的起止位置

注意:hmm模型(隱馬爾可夫模型),可以識別新詞

jieba.load_userdict(filename)filename為自定義詞典的路徑

在使用的時候,詞典的格式和jieba分詞器本身的分詞器中的詞典格式必須保持一致,乙個詞佔一行,每一行分成三部分,一部分為詞語,一部分為詞頻(可以省略),最後為詞性(可以省略),用空格隔開。

命令:

jieba.analyse.extract_tags(sentence,topk=20,withweight=false,allowpos=

())

import jieba.analyse

s="我好想去重慶找大瑞玩然後一起吃火鍋喝冰奶茶啊"

for a,b in jieba.analyse.extract_tags(s,withweight=true):

print(a,b)

結果:

找大瑞 1.7078239289857142

喝冰 1.7078239289857142

吃火鍋 1.5578493397714286

奶茶 1.4661559274571427

重慶 0.9241968538314286

一起 0.6959970096985714

然後 0.6867600907842857

和extract_tags的不同好像在於textrank進行了歸一化。

命令:

jieba.analyse.textrank(sentence,topk=20,withweight=false,allowpos)
引數:和上述一樣。

例子:

import jieba.analyse

s="不想上學啊啊啊啊"

a= jieba.analyse.textrank(s,withweight=true)

print(a)

結果:

[

('不想', 1.0), (

'上學', 0.9961264494011037)

]

切出來的結果是generator。

例子:

s=

"這個十一月俺要去南京看楓葉、吃生煎和鍋貼。"

for c,d in jieba.posseg.cut(s):

print(c,d)

結果:

這個 r

十一月 m

俺 r要 v

去 v南京 ns

看 v楓葉 n

、 x吃生 v

煎 v和 c

鍋貼 n

。 x

paddle模式詞性:

標籤含義

標籤含義

標籤含義

標籤含義

n普通名詞

f方位名詞

s處所名詞t時間

nr人名

ns地名

nt機構名

nw作品名

nz其他專名

v普通動詞

vd動副詞

vn名動詞

a形容詞

ad副行詞

an名形詞d副詞

m數量詞q量詞

r代詞p介詞

c連詞u助詞

xc其他虛詞

w標點符號

per人名

loc地名

org機構名

time

時間注意:windows不支援並行分詞

命令:jieba.enable_parallel(4),引數代表並行程序數

jieba.disable_parallel(),關閉並行分詞模式

使用jieba.tokenize可以返回詞語在原文的起始位置

注意:輸入引數只接受unicode

result = jieba.tokenize(u'上海益民食品一廠****'

)print(

"【普通模式】"

)for tk in result:

print(

"word: \t\t start: \t\t end: ".format(tk[0],tk[1],tk[2]

))

中文分詞模組 jieba筆記

裡面主要羅列一些常用方法 usr bin env python coding utf 8 import jieba jieba.load userdict mydict.txt 匯入自己的詞典 jieba.add word 西城校區 新增詞進入詞典 jieba.del word 去了 在詞典中刪除乙...

中文分詞 jieba

支援繁體分詞 支援自定義詞典 mit 授權協議 對 python 2 3 均相容 試圖將句子最精確地切開,適合文字分析 import jieba def main s u 我在人民廣場吃著炸雞 cut jieba.cut s print type cut for word in cut print ...

中文分詞工具 Jieba

jieba分詞值基於規則和統計這兩類方法。其首先基於字首詞典進行詞圖掃瞄,字首詞典是指詞典中的詞按照字首的包含順序排列的,從而形成一種層級包含結構。這種字首詞典的好處便是可以快速構建包含全部可能分詞結果的有向無環圖,這個圖包含多條分詞路徑,無環是指節點間不構成閉環。然後基於標註語料,使用動態規劃演算...