記錄hive的幾種常見的排序方式order by
普通排序,通過order對欄位進行降序或者公升序
select * from emp order by sal;
sort by
對每乙個reduce的結果進行排序,為了看出效果,我們多設定幾個reduce,檢視每個reduce的結果是否是排序的。
set mapreduce.job.reduces=3;
insert overwrite local directory 『/opt/moduels/emp_02』 row format delimited fields terminated by 『\t』 select * from emp sort by sal;
distribute by
distribute by設定分割槽,根據什麼來分割槽,分割槽就是讓什麼欄位的什麼值放在哪乙個分割槽上,設定分割槽之後再跟進sal進行排序。
insert overwrite local directory 『/opt/moduels/emp_03』 row format delimited fields terminated by 『\t』 select * from emp distribute by deptno sort by sal;
cluster by
cluster by就是distribute by+sort by的組合,但是只能預設公升序。
insert overwrite local directory』/opt/moduels/emp_04』 row format delimited fields terminated by 『\t』 select * from emp cluster by sal;
Hive 的幾種連線方式
測試環境 hadoop 0.20.2版本 hive 0.5.0版本 jdk1.6 1 一般來說我們對hive的操作都是通過cli來進行,也就是linux的控制台,但是,這樣做本質上是每個連線都存放乙個元資料,各個之間都不相同,所以,對於這樣的模式我建議是用來做一些測試比較合適,並不適合做產品的開發和...
hive幾種join方式
hive處理表關聯時由於資料量以及資料傾斜等問題會導致計算效能差甚至任務失敗,下面記錄一下hive的幾種關聯方式。普通連線,在sql中不特殊指定連線方式使用的都是這種普通連線。缺點 效能較差 優點 操作簡單,普適性強 map端連線,與普通連線的區別是這個連線中不會有reduce階段存在,連線在map...
Hive建立表的幾種方式
hive執行的三種方式 1.用hive cli 2.終端執行hive命令 hive e hive語句 3.終端執行hive指令碼 hive f hive指令碼 如果需要通過jdbc來連線hive,需要在終端開啟hiveserver2服務 nohup hive service hiveserver2 ...