hive中4種排序的區別
共有四種排序:order by,sort by ,distribute by,cluster by
order by
全域性排序;
對輸入的資料做排序,故此只有乙個reducer(多個reducer無法保證全域性有序);
只有乙個reducer,會導致當輸入規模較大時,需要較長的計算時間;
sort by
非全域性排序;
在資料進入reducer前完成排序;
當mapred.reduce.tasks>1時,只能保證每個reducer的輸出有序,不保證全域性有序;
distribute by
按照指定的字段對資料進行劃分輸出到不同的reduce中;
常和sort by一起使用,並且distribute by必須在sort by前面;
cluster by
相當於distribute by+sort by,只能預設公升序,不能使用倒序;
Hive 中的四種排序
1 order by 可以指定desc 降序 asc 公升序 order by會對輸入做全域性排序,因此只有乙個reducer 多個reducer無法保證全域性有序 然而只有乙個reducer,會導致當輸入規模較大時,消耗較長的計算時間。create table temperature year i...
hive的四種排序比較
hive 的四種排序對比 order by 會對輸入做全域性排序 因此只有乙個reducer 多個reducer無法保證全域性有序 只有乙個reducer,會導致當輸入規模較大時,需要較長的計算時間 在order by 狀態下所有資料會到一台伺服器進行reduce操作也即只有乙個reduce,如果在...
Hive 中的四種排序 舉例
1 order by 可以指定desc 降序 asc 公升序 order by會對輸入做全域性排序,因此只有乙個reducer 多個reducer無法保證全域性有序 然而只有乙個reducer,會導致當輸入規模較大時,消耗較長的計算時間。create table temperature year i...