海量資料遷移之使用shell啟用多個動態並行

2021-09-22 09:10:08 字數 2063 閱讀 7059

在資料遷移中,可能有成百上千個表,有些表很大,有些表又很小。

如果啟用了多個並行的程序,可能會有資源分配上的問題。

比如下面有10個表,100代表預計的時間為100分鐘。

table1  100

table2 90

table3 90

table4 80

table5 80

table6 70

table7 60

table8 60

table9 50

table10 40

如果分為4個程序來並行執行,可能一種比較理想的方案就是

parallel1: table1,table8

parallel2: table2,table5,table9

parallel3: table3,table6,table9

parallel4: table4,table7

但是在實際的執行中,可能因為表的分割槽,表的資料型別,表的儲存的不同,可能實際的執行時間會有很大的差別,

可能paralle2,3,4已經執行完了,而parallel1還沒有執行完50%。

這樣,table8就一直pending在那了。

在這樣的情況下,可以考慮使用動態並行,就是能夠在後台啟用一些並行的程序,比如需要4個並行程序,就使用nohup啟用4個並行的程序。

不做具體的資料操作。

parfile=par2_tab_parall.lst

logfile=`echo $parfile|awk -f. '`".log"

while true

doif [ -f $parfile ]

then

tab_exists_flag=`cat $parfile |wc -l`

if [ $ -eq 0 ]

then

sleep 5;

elif [ $ -gt 0 ]

then

tab_name=`cat $parfile`

touch $.tmp

mv $.tmp $

fifidone

echo $1

sqlplus -s n1/n1 < set time on

set timin on

set pages 0

select 'insert into '||'$1;' from dual;

select 'commit;' from dual;

eofif [ $? -eq 0 ]

then

echo '' >parallel1.lst

fi

使用如下的命令來啟用乙個程序,比如下面的命令啟用程序2,如果啟用其他的程序,命令類似

nohup ksh par2.sh > par2_tab_parall.log &
只需要在乙個檔案中放入處理的表名即可。如果是程序2,就在par2_tab_parall.lst中放入表名,假設表為test

par2_tab_parall.lst

[ora11g@rac1 parallel]$ cat par2_tab_parall.lst

test

如果放入表test,之後,就會發現第2個程序就開始處理表test了

test

insert into test;

elapsed: 00:00:00.00

commit;

elapsed: 00:00:00.01

再放入乙個表,馬上就會發現程序開始處理表tab_test了,如果沒有表的時候,它就在後台做sleep工作。

[ora11g@rac1 parallel]$ echo tab_test > par2_tab_parall.lst

tab_test

insert into tab_test;

elapsed: 00:00:00.01

commit;

elapsed: 00:00:00.00

shell快速遷移海量檔案

author skate time 2012 03 02 同事的寫的乙個指令碼,覺得非常好,實用性很強,精緻短小,特記錄與此,方便以後查用.業務需求 需要把乙個目錄下的1000多萬個檔案遷移到遠端機器 思路 用wget來把檔案乙個乙個的遷移過去,因為檔案數量比較大,如果一下在迴圈操作,會非常慢。所以...

shell快速遷移海量檔案

同事的寫的乙個指令碼,覺得非常好,實用性很強,精緻短小,特記錄與此,方便以後查用.業務需求 需要把乙個目錄下的1000多萬個檔案遷移到遠端機器 思路 用wget來把檔案乙個乙個的遷移過去,因為檔案數量比較大,如果一下在迴圈操作,會非常慢。所以分批操作,採用化整為零的方法,具體的shell指令碼如下 ...

kafka訊息系統 海量資料遷移方案

由於本人主要從事大資料視覺化的工作,就少不了對海量資料的分析,但是我們並不是資料的生產 資料來自有大資料視覺化分析需求的使用者,所以實際業務中往往會遇到大量資料從傳統儲存方式 關係型資料庫 檔案儲存等 到資料倉儲的遷移,本次就以實現如何基於kafka從oracle到hive倉庫做資料的遷移工作。本次...