轉化前的大資料量的csv檔案:
轉化後的多個小資料量的csv檔案:
本**利用pandas庫讀取csv檔案、寫入檔案。再利用列表進行分割匹配操作(該csv檔案target為1時是連續兩行資料,所以需要上乙個與接下來乙個的資料名進行比較,相同則被分配到同乙個csv檔案)
直接上**:
import pandas as pd
import csv
import numpy as np
import argparse
if __name__ ==
'__main__'
: parser = argparse.argumentparser(
) parser.add_argument(
'--big_csv'
,type
=str
, default=
'd:/untitled/.idea/centernet/stage_2_train_labels.csv'
,help=''
) parser.add_argument(
'--csv_way'
,type
=str
, default=
'd:/untitled/.idea/centernet/label_csv'
,help=''
) opt=parser.parse_args(
) way_1=opt.big_csv
way_2=opt.csv_way
(opt)
df_2=pd.read_csv(way_1,usecols=[0
])df = pd.read_csv(way_1)
list=[
]num=
0for i in
range
(130):
df_1 = df_2.loc[i:i]
df_1=
str(df_1)
name=df_1[-36
:]#擷取倒數第36到結尾
list
(name)
if name==
list
[i-1]:
df_3=df.loc[i-
1:i]
df_3.to_csv(
"%s/%s.csv"
%(way_2,name)
,index=
false
)else
: df_3=df.loc[i:i]
df_3.to_csv(
"%s/%s.csv"
%(way_2,name)
,index=
false
)
大資料量演算法
給40億個不重複的unsigned int的整數,沒排過序的,然後再給乙個數,如何快速判斷這個數是否在那40億個數當中 位圖思想解法 include stdio.h include stdlib.h include memory.h define max num 4294967295 int mai...
大資料量處理
看看這個,異曲同工,永遠不超時 該程式是針對非常龐大的資料庫開發的,沒有用迴圈 用途 對過萬條資料的資料庫字段內容批量替換 資料庫連線 dim beeyee dbname,connstr,conn,intsn1 dim content,num,intsn,intidno,strcodea,strco...
航測大資料量處理 大資料量處理及優化措施
1 首先考慮垂直拆分庫,不同的表拆分到不同的庫中,例如使用者庫 產品庫 支付庫 2 然後考慮水平拆分庫,將乙個表的資料放到多張表中,例如按照使用者 時間 訂單號 3 插入資料的時候不建立索引 4 待資料已經插入完成後,建立索引 5 正確的指定索引字段 6 使用批量插入資料庫的方式代替單條資料的插入 ...