最近在做自然語言處理的資料預處理部分——實體詞,提取、抓取的資料集中包含中英文,那麼我們只需要英文,不需要中文,於是就寫了乙個簡單的指令碼實現txt文字資料分類。
原資料如下(為了寫這篇部落格特意只提取了資料的一部分):
**如下:
file_open = open(r'c:\users\administrator\desktop\words.txt', 'r', encoding='gbk')
lines = file_open.readlines()
a = set()
b = set()
for line in lines:
b.add(line)
for char in line:
if u'\u4e00' <= char <= u'\u9fff':
a.add(line)
else:
break
with open('c:/users/administrator/desktop/2.txt', 'w+') as f:
for stu in a:
print(stu)
f.write("".join(stu))
c = b - a
with open('c:/users/administrator/desktop/3.txt', 'w+') as t:
for stb in c:
print(stb)
t.write("".join(stb))
分類結果如下:
1、中文文字
2、英文文字
mysql匯入txt文字資料
按照mysql官方文件指示下 建立資料庫和表 mysql create database menagrie 然後建立表 1 mysql create table pet name varchar 20 owner varchar 20 2 species varchar 20 char 1 birt...
python處理文字資料
處理文字資料,主要是通過seris的str訪問。遇到nan時不做任何處理,保留結果為nan,遇到數字全部處理為nan。str是seris的方法,dataframe不能直接使用,但是通過索引選擇dataframe中的某一行或者某一列,結果為seris,然後就可以使用了。例如定義乙個seris和data...
C 實現把txt文字資料快速讀取到excel中
今天預實現一功能,將txt中的資料轉到excel表中,做為matlab的資料來源。蒐集一些c 操作excel的程式。步驟如下 乙個microsoft.office.interop.excel.dll 在專案中引用。編寫 如下 string path c date streamreader sr ne...