環境:python3、linux、mac、win10皆可用(win10可能面臨萬惡的gbk編碼問題,這一點真的很頭疼)
import sys
import jieba
import jieba.analyse
import jieba.posseg as pseg
# 使用者自定義字典,沒有自定義詞典注釋了就好
jieba.load_userdict("dict_path")
defword_cut
(text):
""" word segment:分詞
:param text:
:return: word_seg
"""word_seg = jieba.cut(text)
word_seg = " ".join(word_seg)
return word_seg
defpos_tag
(text):
""" 詞性標註
:param text:輸入引數-文字
:return: 以詞典形式返回標註結果
"""dicts = {}
for w in pseg.cut(text):
key = w.word
dicts[key] = w.flag
return dicts
defkeyword_extract
(text, key_num):
""" :param text:輸入文字
"""keywords = jieba.analyse.extract_tags(text, topk=key_num, withweight=true, allowpos=())
return keywords
defmain
():"""
"""text = sys.argv[1]
knum = sys.argv[2]
# 分詞
word_seg = word_cut(text)
print(word_seg)
# 詞性標註
postags = pos_tag(text)
print(postags)
keywords = keyword_extract(text, int(knum))
print(keywords)
# return word_seg, postags, keywords
if __name__ == "__main__":
main()
使用截圖,一定要注意的是檔名別命名為jieba.py,不然呼叫jieba就相當於呼叫你的本地jieba檔案了。。。 自然語言處理基礎技術工具篇之Jieba
沒想到堅持學習以及寫作總結已經超過半個月了,謝謝大家的關注 點讚 收藏 前面談了nlp的基礎技術,我始終覺得,入門學習一件事情最好的方式就是實踐,加之現在python如此好用,有越來越多的不錯nlp的python庫,所以接下來的一段時間裡,讓我們一起來感受一下這些不錯的工具。我均使用jupyter編...
jieba分詞快速入門 自然語言處理
結巴 中文分詞 做最好的python中文分詞元件 jieba 支援繁體分詞 支援自定義詞典 示例 分詞 encoding utf 8 import jieba seg list jieba.cut 我來到北京清華大學 cut all true print full mode join seg lis...
檔案命名批處理工具包
1.刪除當前目錄下指定字尾檔案 echo off setlocal enabledelayedexpansion 後為要刪除的檔案格式 for n in xml do del n 2.清除當前目錄下檔名中指定字元 echo off echo.echo 正在操作中,請稍候 for f delims a...