深度學習的快速發展離不開龐大的資料量,做好資料處理是深度學習的第一步。
然而paddlehub對自定義資料有格式要求,要求相應的資料格式為第一列是文字內容text_a,第二列為文字類別label。列與列之間以tab鍵分隔。資料集檔案第一行為text_a label
(中間以tab鍵分隔),儲存為tsv檔案。
而我的原資料是csv檔案,首先要把csv檔案(以逗號分隔)轉為tsv檔案(以tab鍵分隔):
import pandas as pd
from sklearn.utils import shuffle # 用於資料的隨機排列,也可不用
if __name__ == '__main__':
dtype_dic = # 設定資料讀取的型別
# 此處是讀取中文資料,如果是英文資料,編碼可能是'iso 8859-1'
pd_all = pd.read_csv("test.csv", sep=',', header=none, dtype=dtype_dic, encoding='utf-8') # "../test_dataset/predict.csv"
# pd_all[0].astype('int')
# 打亂資料
# pd_all = shuffle(pd_all)
# 儲存為tsv檔案,當然也可以儲存為csv檔案,二者區別在於sep為'\t'還是','
pd_all.to_csv("test.tsv", index=false, sep='\t') # index = false 不儲存索引
如果遇到讀取檔案時編碼問題,需要先使用notepad++將檔案轉為utf-8編碼。
由於原資料中存在不符合要求的資料,盡量先檢查資料格式,不能有一絲錯誤。否則,在深度學習跑**過程中將會出現資料讀取錯誤。
Python之資料處理
靠別人不如靠自己,學學學學學學學學!原資料 需求 coding utf 8 txtfile aminer1.txt newtxtfile open new txtfile,w with open txtfile,r as file to read lines file to read.readlin...
python之資料處理
檔案資料讀寫的基本操作 import this 本地檔案的界定 指向乙個本地儲存的檔案,是乙個連線或者乙個對映 path1 c users 11786 desktop test.txt 正斜線兩個或者反斜線乙個來用於資料路徑的表達 再或者用r 寫在檔案路徑外面 推薦第三種 path2 c users...
資料互動之資料處理
資料互動必須通過協議來實現,所以互動雙方必須遵循一定的讀寫規則 我的方法很簡單但可以用,如果大家有好的方法,不妨交流一下 實現方法 資料流類datastream有兩個char 型指標,分別用來儲存讀寫的資料,還有w pos,r pos兩個資料用來記錄讀寫的位置,而且要用到互斥鎖,確保指標的安全性 v...