用python拆分大資料量csv檔案

2021-10-08 16:09:51 字數 1785 閱讀 4397

轉化前的大資料量的csv檔案:

轉化後的多個小資料量的csv檔案:

本**利用pandas庫讀取csv檔案、寫入檔案。再利用列表進行分割匹配操作(該csv檔案target為1時是連續兩行資料,所以需要上乙個與接下來乙個的資料名進行比較,相同則被分配到同乙個csv檔案)

直接上**:

import pandas as pd

import csv

import numpy as np

import argparse

if __name__ ==

'__main__'

: parser = argparse.argumentparser(

) parser.add_argument(

'--big_csv'

,type

=str

, default=

'd:/untitled/.idea/centernet/stage_2_train_labels.csv'

,help=''

) parser.add_argument(

'--csv_way'

,type

=str

, default=

'd:/untitled/.idea/centernet/label_csv'

,help=''

) opt=parser.parse_args(

) way_1=opt.big_csv

way_2=opt.csv_way

print

(opt)

df_2=pd.read_csv(way_1,usecols=[0

])df = pd.read_csv(way_1)

list=[

]num=

0for i in

range

(130):

df_1 = df_2.loc[i:i]

df_1=

str(df_1)

name=df_1[-36

:]#擷取倒數第36到結尾

list

print

(name)

if name==

list

[i-1]:

df_3=df.loc[i-

1:i]

df_3.to_csv(

"%s/%s.csv"

%(way_2,name)

,index=

false

)else

: df_3=df.loc[i:i]

df_3.to_csv(

"%s/%s.csv"

%(way_2,name)

,index=

false

)

大資料量演算法

給40億個不重複的unsigned int的整數,沒排過序的,然後再給乙個數,如何快速判斷這個數是否在那40億個數當中 位圖思想解法 include stdio.h include stdlib.h include memory.h define max num 4294967295 int mai...

大資料量處理

看看這個,異曲同工,永遠不超時 該程式是針對非常龐大的資料庫開發的,沒有用迴圈 用途 對過萬條資料的資料庫字段內容批量替換 資料庫連線 dim beeyee dbname,connstr,conn,intsn1 dim content,num,intsn,intidno,strcodea,strco...

航測大資料量處理 大資料量處理及優化措施

1 首先考慮垂直拆分庫,不同的表拆分到不同的庫中,例如使用者庫 產品庫 支付庫 2 然後考慮水平拆分庫,將乙個表的資料放到多張表中,例如按照使用者 時間 訂單號 3 插入資料的時候不建立索引 4 待資料已經插入完成後,建立索引 5 正確的指定索引字段 6 使用批量插入資料庫的方式代替單條資料的插入 ...