提取中文片語

2021-06-20 20:32:53 字數 826 閱讀 4218

原文從如下的txt檔案中提取【】中的片語。

【挨邊】āi∥biān(~兒)①動靠著邊緣:上了大路,要挨著邊兒走。②動接近(某數,多指年齡):我六十~兒了。③形接近事實或事物應有的樣子:你說的太不~兒!

【挨近】āi∥jìn動靠近:你~我—點兒|兩家挨得很近。

【挨批】ái∥pī動受到批評或批判:挨了一頓批。

【挨宰】ái∥zǎi〈口〉動比喻購物或接受服務時被索取**而遭受經濟損失。

【挨整】ái∥zhěnɡ動受到打擊**:他過去捱過整。

【愛國】ài∥ɡuó動熱愛自己的國家:~心|~人士。

程式**

#! /usr/bin/env python

# -*- coding: cp936 -*-

# -*- coding: encoding -*- 

import re

f=open('hello.txt','r')

f_new=file('hello_new.txt','a+')

while true:

line=f.readline()

if line:

p=re.compile(unicode("【(.*?)】","gb2312"))

s=unicode(line,"gb2312",'ignore')

for i in p.findall(s):

print i

f_new.write(i.encode('gb2312'))

f_new.write('\n')

else:

break

f.close()

f_new.close()



中文分詞元件

cmd執行命令 mecab d mecab chinesedic binary wakati wiki.zh.text.jian o wiki.zh.text.jian.seg b 10000000 其中,wiki.zh.text.jian是乙個中文資料集,wiki.zh.text.jian.seg...

訓練中文詞向量

執行python wikiextractor.py b 5000m o extracted zhwiki latest pages articles.xml.bz2 安裝繁體轉簡體工具 sudo apt get install opencc 在extracted子目錄下執行繁體轉簡體 opencc ...

中文詞頻統計

2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...