正常情況下讀取csv檔案習慣使用pandas庫中的read_csv函式
import pandas as pd
data = pd.read_csv('路徑')
但是這兩天處理gb級資料時,發現速度太慢,於是分享兩種加速方法
第一種 使用datatable庫中的fread函式
import datatable as dt
data = dt.fread('路徑').to_pandas #如果加.to_pandas 與pd.read_csv讀取的資料格式一樣
example:讀取相同資料集,datatable只用了16s,而pandas用了2min48s
第二種 使用cudf庫加速
cudf好像只有在linux系統下才能配置
github:
感興趣的可以配置試試
如果懶得配置的使用第一種方式足夠了
Python 讀取資料
將乙個資料夾下面的影象和對應的pts讀進來,然後把pts檔案裡面的資料讀入乙個陣列,然後畫到影象上 coding utf 8 測試資料樣例 讀取 image cv2.imread fullpath 讀取對應的pts檔案 landmarks readlmk ptsfile for point in l...
Python 讀取資料
將乙個資料夾下面的影象和對應的pts讀進來,然後把pts檔案裡面的資料讀入乙個陣列,然後畫到影象上 coding utf 8 測試資料樣例 讀取 image cv2.imread fullpath 讀取對應的pts檔案 landmarks readlmk ptsfile for point in l...
python讀取hdfs資料
載入包from hdfs.client import client self.filename user hdfs read.txt 讀取hdfs檔案內容,將每行存入陣列返回def read hdfs file self with client.read samples.csv encoding u...