大資料SQL執行工具調研總結

2021-07-13 06:35:22 字數 943 閱讀 5182

下面是這幾天來我對於hive on mr/hive on spark /impala / presto/ spark-sql 做的調研之後做的總結,見以下矩陣:

**庫

優點

缺點

hive sql支援度

udf支援

hive on mr

全部支援

hive on spark較慢

全部支援

impala

對於大表需事先對錶compute

對於多count(distinct)語句需要改寫

支援presto

資料量小的表可以秒查

對於資料量大的表基本上跑不了

支援主流hive sql

不支援spark-sql較快

可能會不穩定

全部支援

其他總結:

1.presto在執行執行簡單sql、無關聯表、表不是很大的情況下有秒查優勢;

在有多個大表關聯的sql中不建議採用presto執行。

2.impala不可以在一條語句中執行 count distinct,如需要務必將其拆開成多條語句;

impala在並行執行多條sql的時候延遲會大;

impala處理連續任務或者大表任務依舊是我們現在採用的impala比較合適;

3.hive/hive on spark/spark sql 批量查詢;

hive/hive on spark 使用方便;

spark sql 可以繼續調優引數,而hive on spark的引數設定沒有前者靈活 。

文件開發工具調研總結

工具清單 文件開發工具調研 工具型別 標記語法 工具支援平台 原始檔形式 交付形式 是否支援文件組織 發布對中文的支援 說明使用者 非標記類 word office word window mac docx doc word pdf是支援 無使用門檻,但需要花時間在格式處理上 各公司標記語言類 ma...

大資料執行環境的執行

1.azkaban 啟動 bin azkaban solo start.sh或絕對路徑方式執行azkaban solo start.sh指令碼 關閉 bin azkaban solo shutdown.sh 2.kafka 注意配置server.properties,此配置檔案用來配置kafka伺服...

各種大資料工具架構

大資料的概念 大資料的特點可以用4個v來描述 volume 大 variety 多 velocity 快 value 低 大資料管理 hadoop是google gfs以及mapreducc系統的開源實現,使用者可以在不了解分布式底層細節的情況下開發分布式程式,但是無法做到動態和實時的分析。流計算系...