為什麼需要使用到即席查詢的資料表,這個取決於數倉的上層應用於數倉的規模,通常如果需要給hive的上層服務提供快速響應,那麼即席查詢是必不可少的數倉元件,常見的即席查詢元件有以下。
對比點duird
kylin
presto
impala
sparksql
es亞秒級響應yy
nnnn
百億級資料集yy
yyyy
sql支援
n(ing)yy
ynn離線
yyyy
yy實時y
n(ing)nn
ny精確去重ny
yynn
多表joinny
yynn
jdbc for bi report支援ny
yynn
1、druid:是乙個實時處理時序資料的olap資料庫,因為索引首先按照時間分片,查詢的時候也是按照時間路線去路由索引。
2、kylin:核心是cube,cube是一種預計算技術,基本思路是預先對資料作多維的索引,查詢時只掃瞄索引而不訪問原始資料從而提速。
3、presto:它沒有使用mr,大部分場景下比hive快乙個量級,其中的關鍵是所有的處理都在記憶體中完成,支。
4、impala:基於記憶體運算,速度快,支援的資料來源沒有presto多。
5、sparksql:基於spark平台的olap框架,基本思路是增加機器平行計算,從而提高查詢速度。
6、es:使用分詞和倒排索引實現快速查詢,es在資源獲取和聚集用的資源比druid高。
druid > kylin > presto > sparksql
presto > sparksql > kylin > druid
資料倉儲之Hive技術框架選型
1.1 資料儲存 行儲存 基於 hadoop 系統行儲存結構的優點在於快速資料載入和動態負載的高適應能力,但是行儲存不支援快速查詢,當查詢僅僅針對多列表中的少數幾列時,它不能跳過不必要的列讀取。同時,由於行儲存混合著不同資料值的列,行儲存不容易獲得乙個極高的壓縮比,即空間利用率不易大幅提高,儘管通過...
Hive查詢之Join語句
hive支援通常的sql join語句,但是只支援等值連線,不支援非等值連線。案例實操 1 根據員工表和部門表中的部門編號相等,查詢員工編號 員工名稱和部門名稱 hive default select e.empno,e.ename,d.deptno,d.dname from emp e join ...
Hive之資料查詢
發布於 2013 年 10 月 11 日 由 aaron 發布於 hive 一,排序和聚合 對於排序有兩種方式,一種是order by 一種是sort by order by 會對所有的資料進行排序,所以最後會只有乙個reducer來處理,如果資料量非常大,效率會非常差勁 sort by是部分排序,...