jieba分詞及詞性標註
想著先分詞,再給分過的詞標註詞性
很簡單但是弄了蠻久
**也不簡便
要學習啊
雞湯:腳踏實地,眼看前方
import jieba
import jieba.posseg as pseg
jieba.load_userdict('userdict1.txt')
# 建立停用詞list
def stopwordslist(filepath):
stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
return stopwords
# 對句子進行分詞
def seg_sentence(sentence):
sentence_seged = jieba.posseg.cut(sentence.strip())
stopwords = stopwordslist('stop_words.txt') ## 這裡載入停用詞的路徑
outstr = ''
for pairs in sentence_seged:
# print(pairs)
# print('.'*60)
for word in pairs:
# print(word)
# print('='*50)
if word not in stopwords:
if word != '\t':
# print(word)
# print('>'*50)
outstr += word
outstr += "/"
# print(outstr)
outstr += ','
return outstr
inputs = open('input.txt', 'r', encoding='utf-8')
outputs = open('output.txt', 'w', encoding='utf-8')
for line in inputs:
line_seg = seg_sentence(line) # 這裡的返回值是字串
outputs.write(line_seg + '\n')
outputs.close()
inputs.close()
Jieba分詞詞性標註以及詞性說明
import jieba import jieba.analyse import jieba.posseg def dosegment all sentence 帶詞性標註,對句子進行分詞,不排除停詞等 param sentence 輸入字元 return sentence seged jieba....
python的jieba分詞詞性標註
在明哥的嚴厲催促下,我終於註冊了我自己的部落格,並且這是我寫的第一篇部落格,寫得不好還請大家多多指出,以幫助小弟在程式設計之路上走得更遠。好了,廢話就不多說了,直接進入主題吧。號稱 做最好的python中文分詞元件 的jieba分詞是python語言的乙個中文分詞包。它的特點有 支援三種分詞模式 精...
jieba詞性標註
ag 形語素形容詞性語素。形容詞 為a,語素 前面置以a。a形容詞 取英語形容詞adjective的第1個字母。ad副形詞 直接作狀語的形容詞。形容詞 a和副詞 d並在一起。an名形詞 具有名詞功能的形容詞。形容詞 a和名詞 n並在一起。b區別詞 取漢字 別 的聲母。c連詞 取英語連詞conjunc...