前言:
最近專案在做資料分析,需要接入大量的客戶資料;理論上如果我直接訪問對方資料庫不會慢的,但是對方不允許我們直接訪問,要他們推送給我們,乙個mysql資料庫做中轉,這中間寫入mysql,我從mysql 讀取,速度慢太多了。因此考慮歷史資料通過檔案傳送給我們。綜合考慮採用方案為實時資料採用推送,歷史資料採用檔案一次性給我們。這就帶來了乙個問題,歷史資料有100g。直接讀取,記憶體受不了。按行讀取處理太慢。
問題描述:
由於我的要進行資料處理,我想通過pandas 做乙個資料的篩選和預處理,所以我的檔案想寫入的是pandas,使用pandas模組來讀取檔案。直接讀取會卡死機器。檔案有70g大小。
解決方案:
經過調研:
第一種方法:
第二種方式:
第三種方式:
最終我選擇了使用第三者,因為檔案太大了,我擔心程式處理過程種出現狀況不好,導致程式得全部重新來過,太不划算。
最後一種方式的好處還有就是可以並行處理,把檔案分割成合適的行數,可以一次性讀入資料,進行全資料塊分析處理,效率高於一行一行處理。
沒有去做過多優化,解決了問題,後續還有很多要做!
linux 文字處理
1.文字處理 echo echo e 033 40 35m.背景顏色範圍 40 49 40 黑 41 深紅 42 綠 43 黃色 44 藍色 45 紫色 46 深綠 47 百色 字型顏色範圍 30 39 30 黑 31 紅 32 綠 33 黃 34 藍色 35 紫色 36 深綠 37 百色 eg e...
Linux 文字處理
author janloong do o cat 連線檔案並且列印到標準輸出 sort 給文字行排序 uniq 報告或者省略重複行 cut 從每行中刪除文字區域 paste 合併檔案文字行 join 基於某個共享欄位來聯合兩個檔案的文字行 comm 逐行比較兩個有序的檔案 diff 逐行比較檔案 p...
Linux文字處理命令
4 linux文字處理命令sort命令 sort命令的功能是對檔案中的各行進行排序。sort命令有許多非常實用的選項,這些選項最初是用來對資料庫格式的檔案內容進行各種排序操作的。實際上,sort命令可以被認為是乙個非常強大的資料管理工具,用來管理內容類似資料庫記錄的檔案。sort命令將逐行對檔案中的...