進行詞性標註
檔案讀取寫入
做實驗室的乙個專案,暫時要做的內容:對文字資料作摘要(<8)。
首先觀察文字資料,我們需要擷取符號=
open
("cut.txt"
,'r'
,encoding=
'utf-8'
)f1 =
open
("cut_result.txt"
,'w'
,encoding=
'utf-8'
)for line in f.readlines():
#print(line)
a = line.split('0]
(a)資料簡單處理好啦,現在我們要對擷取出來的文字進行分詞,使用的是jieba分詞。
import jieba
import jieba.posseg
import jieba.analyse
jieba.load_userdict(
'c:/users/lucy/desktop/zhengwu_data/new_user_dict.txt'
)#載入外部 使用者詞典
defstopwordslist
(filepath)
: stopwords =
[line.strip(
)for line in
open
(filepath,
'r', encoding=
'utf-8'
).readlines()]
# 停用詞list的建立
return stopwords
# 對句子進行分詞
defseg_sentence
(sentence)
: sentence_seged = jieba.cut(sentence.strip())
stopwords = stopwordslist(
'c:/users/lucy/desktop/zhengwu_data/stopwords.txt'
)# 這裡載入停用詞的路徑
outstr =
''for word in sentence_seged:
if word not
in stopwords:
if word !=
'\t'
: outstr += word
# outstr += " "
return outstr
# 詞性標註
defpos_sentence
(sentence)
: sentence_seged = jieba.posseg.cut(sentence)
outstr =
''for x in sentence_seged:
outstr +=
"{}/{} "
.format
(x.word, x.flag)
return outstr
inputs =
open
('c:/users/lucy/desktop/zhengwu_data/cut_result.txt'
,'r'
, encoding=
'utf-8'
)# 這裡載入待分詞文字注意路徑是相對路徑,轉成utf-8格式
outputs =
open
('c:/users/lucy/desktop/zhengwu_data/fenci_jieguo.txt'
,'w'
, encoding=
'utf-8'
)# 這裡載入待裝入文字注意路徑是相對路徑,轉成utf-8格式
for line in inputs:
line_seg = seg_sentence(line)
# 這裡的返回值是字串
pos_seg = pos_sentence(line_seg)
outputs.write(pos_seg +
'\n'
)outputs.close(
)inputs.close(
)print
("分詞完畢"
)
詞性標註結果:
python jieba 詞性標註
先附上詞性標註表,如下 名詞 1個一類,7個二類,5個三類 名詞分為以下子類 n 名詞 nr 人名 nr1 漢語姓氏 nr2 漢語名字 nrj 日語人名 nrf 音譯人名 ns 地名 nsf 音譯地名 nt 機構團體名 nz 其它專名 nl 名詞性慣用語 ng 名詞性語素 時間詞 1個一類,1個二類...
Python jieba分詞常用方法
支援3中分詞模式 1.全模式 把句子中的所有可以成詞的詞語都掃瞄出來,使用方法 jieba.cut 字串 cut all true,hmm false 2.精確模式 試圖將文字最精確的分開,適合於做文字分析。使用方法 jieba.cut 字串 cut all false,hmm true 3.搜尋引...
分詞詞性列表
名詞分為以下子類 n 名詞 nr 人名 nr1 漢語姓氏 nr2 漢語名字 nrj 日語人名 nrf 音譯人名 ns 地名 nsf 音譯地名 nt 機構團體名 nz 其它專名 nl 名詞性慣用語 ng 名詞性語素 g語素 2.時間詞 t 時間詞 tg 時間詞性語素 3.處所詞 s 處所詞 4.方位詞...