中文分析jieba簡單應用

2021-09-28 23:30:07 字數 2289 閱讀 9363

import jieba

msg =

'安徽省長江流域!'

seg_list = jieba.cut(msg, cut_all=

true

)print

('全模式:'

,'/ '

.join(seg_list)

) seg_list = jieba.cut(msg, cut_all=

false

)print

('精確模式:'

,'/ '

.join(seg_list)

) seg_list = jieba.cut(msg)

print

('預設精確模式:'

,'/ '

.join(seg_list)

)seg_list = jieba.cut_for_search(msg)

print

('搜尋引擎模式'

,'/ '

.join(seg_list)

)

輸出結果

全模式: 安徽/ 安徽省/ 省長/ 長江/ 長江流域/ 江流/ 流域/ / 

精確模式: 安徽省/ 長江流域/ !

預設精確模式: 安徽省/ 長江流域/ !

搜尋引擎模式 安徽/ 安徽省/ 長江/ 江流/ 流域/ 長江流域/ !

#詞性標準

#詞性標準

import jieba.posseg as psg

sent =

'中文分詞是文字處理不可或缺的一步,沒有比jieba更好的中文分詞工具了!'

seg_list = psg.cut(sent)

# seg_list是generator型別

# generator是乙個函式,返回乙個物件(迭代器),可以對其進行迭代

print

(seg_list)

result =

" ".join(

["/\n"

.format

(word, flag)

for word, flag in seg_list]

)print

(result)

輸出

中文/nz

分詞/n

是/v文字處理/n

不可或缺/l

的/uj

一步/m

,/x沒有/v

比/pjieba/eng

更好/d

的/uj

中文/nz

分詞/n

工具/n

了/ul

!/x

說明:

v 動詞

a 形容詞

w 標點符號

u 助詞

r 代詞

w 標點符號

d 副詞

import jieba 

#載入系統詞典

# 每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒

jieba.set_dictionary(

'./data/dict.txt.big'

)sent =

'jieba分詞非常好用,可以自定義金融詞典!'

seg_list = jieba.cut(sent)

# str.join(sequence),將序列中的元素以指定的字元連線生成乙個新的字串

print

('只載入系統詞典:'

,'/ '

.join(seg_list)

)jieba.load_userdict(

'./data/user_dict.utf8'

)seg_list = jieba.cut(sent)

print

('載入自定義詞典後:'

,'/ '

.join(seg_list)

)

執行結果

只載入系統詞典: jieba/ 分詞/ 非常/ 好用/ ,/ 可以/ 自定義/ 金融/ 詞典/ !

載入自定義詞典後: jieba分詞/ 非常/ 好用/ ,/ 可以/ 自定義/ 金融詞典/ !

jieba中文處理

一 前言 和拉丁語系不同,亞洲語言是不用空格分開每個有意義的詞的。而當我們進行自然語言處理的時候,大部分情況下,詞彙是我們對句子和文章理解的基礎,因此需要乙個工具去把完整的文字中分解成粒度更細的詞。jieba就是這樣乙個非常好用的中文工具,是以分詞起家的,但是功能比分詞要強大很多。二 基本分詞函式與...

中文分詞 jieba

支援繁體分詞 支援自定義詞典 mit 授權協議 對 python 2 3 均相容 試圖將句子最精確地切開,適合文字分析 import jieba def main s u 我在人民廣場吃著炸雞 cut jieba.cut s print type cut for word in cut print ...

python中jieba分詞的簡單應用

話不多說,上來就貼 注意編碼問題 encoding utf 8 import jieba jieba.load userdict wangzhan.txt 儲存不需要切分的重要詞語 def creadstoplist stopwordspath stwlist line.strip for line...