自然語言處理工具包jieba的使用

2021-08-10 18:33:08 字數 1428 閱讀 4732

環境:python3、linux、mac、win10皆可用(win10可能面臨萬惡的gbk編碼問題,這一點真的很頭疼)

import sys

import jieba

import jieba.analyse

import jieba.posseg as pseg

# 使用者自定義字典,沒有自定義詞典注釋了就好

jieba.load_userdict("dict_path")

defword_cut

(text):

""" word segment:分詞

:param text:

:return: word_seg

"""word_seg = jieba.cut(text)

word_seg = " ".join(word_seg)

return word_seg

defpos_tag

(text):

""" 詞性標註

:param text:輸入引數-文字

:return: 以詞典形式返回標註結果

"""dicts = {}

for w in pseg.cut(text):

key = w.word

dicts[key] = w.flag

return dicts

defkeyword_extract

(text, key_num):

""" :param text:輸入文字

"""keywords = jieba.analyse.extract_tags(text, topk=key_num, withweight=true, allowpos=())

return keywords

defmain

():"""

"""text = sys.argv[1]

knum = sys.argv[2]

# 分詞

word_seg = word_cut(text)

print(word_seg)

# 詞性標註

postags = pos_tag(text)

print(postags)

keywords = keyword_extract(text, int(knum))

print(keywords)

# return word_seg, postags, keywords

if __name__ == "__main__":

main()

使用截圖,一定要注意的是檔名別命名為jieba.py,不然呼叫jieba就相當於呼叫你的本地jieba檔案了。。。

自然語言處理基礎技術工具篇之Jieba

沒想到堅持學習以及寫作總結已經超過半個月了,謝謝大家的關注 點讚 收藏 前面談了nlp的基礎技術,我始終覺得,入門學習一件事情最好的方式就是實踐,加之現在python如此好用,有越來越多的不錯nlp的python庫,所以接下來的一段時間裡,讓我們一起來感受一下這些不錯的工具。我均使用jupyter編...

jieba分詞快速入門 自然語言處理

結巴 中文分詞 做最好的python中文分詞元件 jieba 支援繁體分詞 支援自定義詞典 示例 分詞 encoding utf 8 import jieba seg list jieba.cut 我來到北京清華大學 cut all true print full mode join seg lis...

檔案命名批處理工具包

1.刪除當前目錄下指定字尾檔案 echo off setlocal enabledelayedexpansion 後為要刪除的檔案格式 for n in xml do del n 2.清除當前目錄下檔名中指定字元 echo off echo.echo 正在操作中,請稍候 for f delims a...