原文從如下的txt檔案中提取【】中的片語。
【挨邊】āi∥biān(~兒)①動靠著邊緣:上了大路,要挨著邊兒走。②動接近(某數,多指年齡):我六十~兒了。③形接近事實或事物應有的樣子:你說的太不~兒!
【挨近】āi∥jìn動靠近:你~我—點兒|兩家挨得很近。
【挨批】ái∥pī動受到批評或批判:挨了一頓批。
【挨宰】ái∥zǎi〈口〉動比喻購物或接受服務時被索取**而遭受經濟損失。
【挨整】ái∥zhěnɡ動受到打擊**:他過去捱過整。
【愛國】ài∥ɡuó動熱愛自己的國家:~心|~人士。
程式**
#! /usr/bin/env python
# -*- coding: cp936 -*-
# -*- coding: encoding -*-
import re
f=open('hello.txt','r')
f_new=file('hello_new.txt','a+')
while true:
line=f.readline()
if line:
p=re.compile(unicode("【(.*?)】","gb2312"))
s=unicode(line,"gb2312",'ignore')
for i in p.findall(s):
print i
f_new.write(i.encode('gb2312'))
f_new.write('\n')
else:
break
f.close()
f_new.close()
中文分詞元件
cmd執行命令 mecab d mecab chinesedic binary wakati wiki.zh.text.jian o wiki.zh.text.jian.seg b 10000000 其中,wiki.zh.text.jian是乙個中文資料集,wiki.zh.text.jian.seg...
訓練中文詞向量
執行python wikiextractor.py b 5000m o extracted zhwiki latest pages articles.xml.bz2 安裝繁體轉簡體工具 sudo apt get install opencc 在extracted子目錄下執行繁體轉簡體 opencc ...
中文詞頻統計
2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...