用python拆分大資料量csv檔案

轉化前的大資料量的csv檔案：

轉化後的多個小資料量的csv檔案：

本**利用pandas庫讀取csv檔案、寫入檔案。再利用列表進行分割匹配操作(該csv檔案target為1時是連續兩行資料，所以需要上乙個與接下來乙個的資料名進行比較，相同則被分配到同乙個csv檔案)

直接上**：

import pandas as pd
import csv
import numpy as np
import argparse
if __name__ ==
'__main__'
:    parser = argparse.argumentparser(
)    parser.add_argument(
'--big_csv'
,type
=str
, default=
'd:/untitled/.idea/centernet/stage_2_train_labels.csv'
,help=''
)    parser.add_argument(
'--csv_way'
,type
=str
, default=
'd:/untitled/.idea/centernet/label_csv'
,help=''
)    opt=parser.parse_args(
)    way_1=opt.big_csv
way_2=opt.csv_way
print
(opt)
df_2=pd.read_csv(way_1,usecols=[0
])df = pd.read_csv(way_1)
list=[
]num=
0for i in
range
(130):
df_1 = df_2.loc[i:i]
df_1=
str(df_1)
name=df_1[-36
:]#擷取倒數第36到結尾
list
print
(name)
if name==
list
[i-1]:
df_3=df.loc[i-
1:i]
df_3.to_csv(
"%s/%s.csv"
%(way_2,name)
,index=
false
)else
:        df_3=df.loc[i:i]
df_3.to_csv(
"%s/%s.csv"
%(way_2,name)
,index=
false
)

大資料量演算法

給40億個不重複的unsigned int的整數，沒排過序的，然後再給乙個數，如何快速判斷這個數是否在那40億個數當中位圖思想解法 include stdio.h include stdlib.h include memory.h define max num 4294967295 int mai...

大資料量處理

看看這個，異曲同工，永遠不超時該程式是針對非常龐大的資料庫開發的，沒有用迴圈用途對過萬條資料的資料庫字段內容批量替換資料庫連線 dim beeyee dbname,connstr,conn,intsn1 dim content,num,intsn,intidno,strcodea,strco...

航測大資料量處理大資料量處理及優化措施

1 首先考慮垂直拆分庫，不同的表拆分到不同的庫中，例如使用者庫產品庫支付庫 2 然後考慮水平拆分庫，將乙個表的資料放到多張表中，例如按照使用者時間訂單號 3 插入資料的時候不建立索引 4 待資料已經插入完成後，建立索引 5 正確的指定索引字段 6 使用批量插入資料庫的方式代替單條資料的插入 ...

用python拆分大資料量csv檔案

大資料量演算法

大資料量處理

航測大資料量處理 大資料量處理及優化措施

相關推薦

航測大資料量處理大資料量處理及優化措施