hive 優化（一）超大資料集動態分割槽優化

需求：一張300+欄位，1億資料量的表，去重並重新按照天分割槽，

（1）方案：直接全表去重並按照字段動態分割槽

結果：失敗，由於資料量和字段過多，全表去重（row_number over()）和動態分割槽都消耗過多資源，根本無法執行成功

（2）方案: 1.全表去重到中間表

2.中間表動態分割槽至原表

結果：失敗，中間表執行成功使用15分鐘，但是中間表動態分割槽至原表時，整個集群檔案操作符飆公升，導致集群hbase 節點也不停掉，程式也報broken_pip 的錯誤，搞的大家很鬱悶。冷靜分析如下：原表全表去重之後沒做任何處理，導致生成了1099個reduce檔案(集群單job 最大redece 數量)，而每個檔案大約含有100個分割槽日期，這就導致了每個檔案要生成100個小檔案。一共要生成10萬個檔案，導致整個集群檔案操作符沾滿，進而影響集群和hbase

（3）最終方案。

1.全表去重到中間表時 distribute

by 分割槽字段，這樣就可以將相同分割槽的資料放到同乙個檔案中用時 15 分鐘

2.新處理過的中間表動態分割槽至原表，用時3分鐘，問題完美解決

hive 優化（一）超大資料集動態分割槽優化

大資料hadoop系列 Hive優化

優化大資料量的KML資料集

大資料基礎之HIVE（一）基礎知識，初學必看

hive 優化（一）超大資料集動態分割槽優化

大資料hadoop系列 Hive優化

優化大資料量的KML資料集

大資料基礎之HIVE（一） 基礎知識，初學必看

相關推薦

大資料基礎之HIVE（一）基礎知識，初學必看