自然語言處理工具包jieba的使用

環境：python3、linux、mac、win10皆可用（win10可能面臨萬惡的gbk編碼問題，這一點真的很頭疼）

import sys
import jieba
import jieba.analyse
import jieba.posseg as pseg
# 使用者自定義字典，沒有自定義詞典注釋了就好
jieba.load_userdict("dict_path")
defword_cut
(text):
"""    word segment：分詞
:param text:
:return: word_seg
"""word_seg = jieba.cut(text)
word_seg = " ".join(word_seg)
return word_seg
defpos_tag
(text):
"""    詞性標註
:param text:輸入引數-文字
:return: 以詞典形式返回標註結果
"""dicts = {}
for w in pseg.cut(text):
key = w.word
dicts[key] = w.flag
return dicts
defkeyword_extract
(text, key_num):
"""    :param text:輸入文字
"""keywords = jieba.analyse.extract_tags(text, topk=key_num, withweight=true, allowpos=())
return keywords
defmain
():"""
"""text = sys.argv[1]
knum = sys.argv[2]
# 分詞
word_seg = word_cut(text)
print(word_seg)
# 詞性標註
postags = pos_tag(text)
print(postags)
keywords = keyword_extract(text, int(knum))
print(keywords)
# return word_seg, postags, keywords
if __name__ == "__main__":
main()

使用截圖，一定要注意的是檔名別命名為jieba.py,不然呼叫jieba就相當於呼叫你的本地jieba檔案了。。。

自然語言處理基礎技術工具篇之Jieba

沒想到堅持學習以及寫作總結已經超過半個月了，謝謝大家的關注點讚收藏前面談了nlp的基礎技術，我始終覺得，入門學習一件事情最好的方式就是實踐，加之現在python如此好用，有越來越多的不錯nlp的python庫，所以接下來的一段時間裡，讓我們一起來感受一下這些不錯的工具。我均使用jupyter編...

jieba分詞快速入門自然語言處理

結巴中文分詞做最好的python中文分詞元件 jieba 支援繁體分詞支援自定義詞典示例分詞 encoding utf 8 import jieba seg list jieba.cut 我來到北京清華大學 cut all true print full mode join seg lis...

檔案命名批處理工具包

1.刪除當前目錄下指定字尾檔案 echo off setlocal enabledelayedexpansion 後為要刪除的檔案格式 for n in xml do del n 2.清除當前目錄下檔名中指定字元 echo off echo.echo 正在操作中，請稍候 for f delims a...

自然語言處理工具包jieba的使用

自然語言處理基礎技術工具篇之Jieba

jieba分詞快速入門 自然語言處理

檔案命名批處理工具包

相關推薦

jieba分詞快速入門自然語言處理