主要有兩種方式:
1. pd.read_csv(file, chunksize=chunk_size)這樣可以保證分塊讀取;下面的部落格提供了如下的**
2. dask包
import dask.dataframe as dd
dd.read_csv(...)
dask包採用的是並行讀取,速度會快很多。在個人筆記本上測試了一組
13605401*8的資料,pd.read_csv需要11s, dd.read_csv僅需要22ms.需要注意的是,安裝需要採用pip install 'dask[complete]'的方式,保證dask完整安裝。
參考:
python中 ,CSV模組的讀操作
一 python的csv模組 python自帶了csv模組提供使用者對csv檔案進行讀寫操作 csv是comma separated values的縮寫,是用文字檔案形式儲存的 資料 二 csv的讀操作 檔案 test data.csv 1 reader函式 接受乙個可迭代的物件,比如csv檔案,返...
python讀 python讀寫csv檔案
今天閒來無事,寫了會csv,簡單總結下csv具體操作 什麼是csv 逗號分隔值 comma separated values,csv,有時也稱為字元分隔值,因為分隔字元也可以不是逗號 其檔案以純文字形式儲存 資料 數字和文字 讀csv檔案 1 首先匯入csv模板 2 建立乙個csv檔案物件 3 開啟...
python 讀CSV 檔案遇到的問題
直奔主題 把包含中文的csv檔案的編碼改成utf 8的方法 最近需要驗證csv文個中,某個字段是否存在一些特定的中文,用python開啟csv進行遍歷時總因為編碼的問題報錯,實在頭大,就採取了曲線救國的方法,即先將csv檔案用excel開啟,另存為 csv utf8格式。然後再遍歷,就ok了。接下來...