# in[1]
import pandas as pd
import numpy as np
import json
import os
import re
# in[2]
# !pwd
os.chdir('./root/faq/')
# in[2]
with open('./data/all_data.txt', 'r') as f:
data = f.read().split('[sep]')
aq = pd.dataframe(data, columns=['question'])
# in[3]
# 冬奧會類(可以回答),設定為正例(2)
aq['question'] = aq['question'].str.strip()
aq['label'] = 2
# in[3]
aq # 冬奧會類, 後面只取一部分
# in[4]
# 資料集1(因為量少,多弄幾個)
# 體育-非東奧; 非體育類;
f = open('./data/negative.json', 'rb')
line = f.read().decode('utf8', 'ignore')
f.close()
with open('./data/negative.txt', 'w') as f:
f.write('[' + ','.join(line.split()) + ']')
# in[5]
# 體育類-非東奧; 非體育類
noaq = pd.read_json('./data/negative.txt')
noaq['title']
# in[4]
# 資料集2
# 體育-非東奧; 非體育類;
f = open('./data/negative02.json', 'rb')
line2 = f.read().decode('utf8', 'ignore')
f.close()
with open('./data/negative02.txt', 'w') as f:
f.write('[' + ','.join(line2.split()) + ']')
# in[5]
noaq02 = pd.read_json('./data/negative02.txt')
noaq02['title']
# 資料集3
# in[5]
print(len(noaq))
# in[6]
# 285155
# 285155
train_len = len(noaq)
aq = aq.iloc[:train_len]
print('東奧(可回答): ', len(aq))
# 285155
print('體育-非東奧 + 非體育類:', train_len)
aq# in[7]
# 篩選體育-非東奧;非體育類;
# 改列名
noaq = noaq.drop(labels=['answer', 'desc', 'url'], axis=1)
noaq.columns = ['question']
noaq
# in[8]
# 非體育類:0
noaq['label'] = 0
noaq
# in[9]
# 體育類,非東奧類:1
sports = ['雪', '贏', '速', '跳', '滑', '冬', '自由', '冰', '劇烈', '開賽', 'vs', '武術', '奧運會', '健身', '跑步', '打球', '強', '壯', '體育', '運動員', '運動', '活動', '訓練', '得分', '比賽', '參賽', '贏', '球']
found = noaq['question'].str.contains('|'.join(sports))
sports_idx = noaq['question'][found].index
print(len(sports_idx))
noaq['label'].iloc[sports_idx] = 1
# in[9]
noaq.loc[noaq['label'] == 1]
noaq.loc[noaq['label'] == 0]
# in[10]
# 整合資料
# in[11]
aq# in[11]
aq.to_csv('./data/faq.csv', sep='\t')
# in[12]
test = pd.read_csv('./data/faq.csv', sep='\t')
test
# %%
shell字串,列表操作等
bin bash function1 function1 a 34 if abcd a then echo 包含 else echo 不包含 fiwhoami grep qe kog2 kog1 返回為0包含 1或其他不包含a abcd b 123412 c a b echo c abcd12341...
字串 列表
定義 使用單引號或者雙引號括起來的任意字串,我們都可以稱之為字串。字串建立 str1 或者 str2 字串的拼接 注意 不同型別不能使用 進行拼接 注意 會在逗號位置產生乙個空格 使用格式化的方式 print format str1,str2 print join list1 序列裡的必須是字串 s...
字串,列表
一.資料型別 type 4 二.字串 1.如何分割字串 url sdasdada,sdasdasd,122323,url.split split 分割字串 sdasdada sdasdasd 122323 2.把字串每個字都單獨弄到列表裡 s codeclassroom.cn l list s pr...