pandas壓縮csv資料 節省空間

2021-10-04 08:23:45 字數 510 閱讀 1680

做專案或做競賽中,會遇到很大的資料集,幾十個g以上,若是直接儲存csv,則會浪費本地磁碟空間。偶然看到一篇pandas使用小技巧,實現csv檔案壓縮與讀取,對我這樣的小白很實用。

首先建立乙個資料集 300m左右

df = pd.dataframe(pd.np.random.randn(

50000

,300))

df.to_csv(『random_data.csv』, index=

false

)

儲存csv時進行壓縮為.gzip格式,可以從本地看到檔案大小變為136m

df.to_csv(『random_data.gz』, compression=』gzip』, index=

false

)

可以對.gzip壓縮檔案直接進行讀取。

df = pd.read_csv(『random_data.gz』)

pandas處理csv資料小試

import pandas as pd import numpy as np 1.讀取csv檔案 filepath data pd.read csv filepath,low memory false 2.輸出設定 pd.set option display.float format lambda ...

使用Pandas處理大型資料 節省90 記憶體的建議

簡要總結一下這篇文章的中心思想 合理設計讀取的資料型別。下圖是從原文中擷取出來的,可以看到pandas中不同資料型別所占用的記憶體。作者建議,在不影響資料準確的情況下,將float64轉換為float32,將int64轉換為int32,對於沒有負數的整數列轉換為uint型別。然而,能夠比較顯著減少記...

pandas處理csv格式的資料

import pandas as pd import numpy as np from pylab import mpl.rcparams font.sans serif simhei mpl.rcparams axes.unicode minus false file path d 演算法比賽 件...