線上做
job遷移:從
gp遷移到
hadoop
,發現有些
job原來跑了
2-3分鐘到
hadoop
上跑到10
分鐘左右,這樣的話會影響到遷移的效果;乙個明顯的
query
如下:
insertinto table_big partition(dt=today) select *** from table_hour_incrementala,table_big b where a.id=b.id and b.dt=yesterday;
檢視一下
grace:
顯然瓶頸集中在第二個
map上,
reduce
的shuffle time
執行了207
秒,計算了
300s
不到;這個
table_big
是個外部表,檢視一下檔案發現是乙個
250mb
左右的gz
檔案,原因基礎上清楚了,在該
job設定了一下
mapred.reduce.tasks=8
就可以解決了:
首先是降低每個
reduce
的計算時間,其次是
today
分割槽的檔案增加進而增加
map數,這個要明天才能看到效果了:p
可以看到每個
reduce
的計算時間已經降到
30秒;同時,產生
today
分割槽的檔案也是8個
30mb
的小檔案,為接下來增加map做好準備
乙個簡單遍歷的演算法優化
include include define n 100000 int main int number 0,temp1,temp2 for number 1 number剛開始以為這已經算行了,但是在想了想過後,若是不是求加100再加168等等呢,萬一要求的範圍是一億呢?如果還是使用遍歷無疑這個程式...
php mysql 乙個查詢優化的簡單例子
php mysql是乙個最經常使用的 搭檔,它們倆配合使用,能夠發揮出最佳效能,當然,如果配合apache使用,就更加perfect了。因此,需要做好對mysql的查詢優化。下面通過乙個簡單的例子,展現不同的sql語句對於查詢速度的影響 存在這樣的一張表test,它有乙個自增的id作為主索引。現在要...
乙個sql的優化
原文 乙個sql的優化 目的 為了查詢某天某個伺服器上的登入id的個數 剛開始編寫的sql select count a.mac logusers from log maclogin all a where ismoni 1 and logintime 2015 02 01 23 59 59 and...