提取中文片語

原文從如下的txt檔案中提取【】中的片語。

【挨邊】āi∥biān(～兒)①動靠著邊緣：上了大路，要挨著邊兒走。②動接近(某數，多指年齡)：我六十～兒了。③形接近事實或事物應有的樣子：你說的太不～兒!

【挨近】āi∥jìn動靠近：你～我—點兒｜兩家挨得很近。

【挨批】ái∥pī動受到批評或批判：挨了一頓批。

【挨宰】ái∥zǎi〈口〉動比喻購物或接受服務時被索取**而遭受經濟損失。

【挨整】ái∥zhěnɡ動受到打擊**：他過去捱過整。

【愛國】ài∥ɡuó動熱愛自己的國家：～心｜～人士。

程式**

#! /usr/bin/env python

# -*- coding: cp936 -*-

# -*- coding: encoding -*-

import re

f=open('hello.txt','r')

f_new=file('hello_new.txt','a+')

while true:

line=f.readline()

if line:

p=re.compile(unicode("【(.*?)】","gb2312"))

s=unicode(line,"gb2312",'ignore')

for i in p.findall(s):

print i

f_new.write(i.encode('gb2312'))

f_new.write('\n')

else:

break

f.close()

f_new.close()

中文分詞元件

cmd執行命令 mecab d mecab chinesedic binary wakati wiki.zh.text.jian o wiki.zh.text.jian.seg b 10000000 其中，wiki.zh.text.jian是乙個中文資料集，wiki.zh.text.jian.seg...

訓練中文詞向量

執行python wikiextractor.py b 5000m o extracted zhwiki latest pages articles.xml.bz2 安裝繁體轉簡體工具 sudo apt get install opencc 在extracted子目錄下執行繁體轉簡體 opencc ...

中文詞頻統計

2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫，加入所分析物件的專業詞彙。5.生成詞頻統計排序排除語法型詞彙，代詞冠詞連詞等停用詞輸出詞頻最大top20，把結果存放到檔案裡源 import jieba fo open r d 三體.txt encoding ...

提取中文片語

中文分詞元件

訓練中文詞向量

中文詞頻統計

相關推薦