HIVE架構以及HIVE常見問題

2021-08-28 01:17:40 字數 1146 閱讀 3673

hive是執行在yarn上的,資料儲存在hdfs上。

將sql語句轉換為mapreduce,當然hive本身做了一些優化,有些任務不會走mapreduce。hive其實就是把結構化的資料檔案對映到表中,hive表的元資料資訊儲存在關係型資料庫中,具體可以參見我的另一篇部落格,配置了mysql資料庫。

sqlparser 對sql語句進行解析,query optimizer 進行優化,physical plan 轉化為物理計畫(比如說,分成幾個mapreduce去執行),最後executioner執行。client包括(cli即hive shell,jdbc,webui),元資料報括,表名,表所屬的資料庫,表的擁有者,列/分割槽字段,表的型別(是否是外部表),表的資料所在的目錄等。hadoop:使用hdfs進行儲存,使用mapreduce進行計算。

1.優勢在於處理大資料,對於小的資料沒有優勢,因為執行延遲比較高。因為執行延遲比較高,所以常用於資料分析實習性要求不高的場合。資料的離線處理。

2.可擴充套件,基於hadoop,hadoop是易擴充套件的,(可以擴充套件集群規模,支援自定義函式)

3.統一的元資料管理,可以與impala/spark等共享原資料

4.操作介面採用類sql語法,避免寫mapreduce

這個部分,我遇見問題,以後會乙個個分析,當然,在配置好環境以後,自己學會檢視日誌檔案就好。

1.hive多表連線查詢

select count(distinct deptno) from dept_part  where month = '201809'

union

select count(distinct deptno) from dept_part where month = '201810';

報錯:failed: parseexception line 3:0 missing all at 'select' near ''

另外,在子查詢的**裡面記得給別取別名,hive本身存在一定問題

希望有小可愛告訴我一下。

hive架構元件以及使用

hive說明 1,hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能 2,hive 的效率取決於 mapreduce或者spark 3,hive將 sql語句翻譯成mapreduce程式,然後yarn hdfs 4,hive 將表結構儲存於...

hive架構探索

hive是一款資料倉儲軟體,幫助使用者使用sql來管理 讀寫在分布式儲存上的大型資料集。使用者可以通過cli jbdc driver等方式來連線hive。直接編寫mapreduce程式來操作hadoop上的資料集需要編寫複雜的 而使用hive,只需要簡單的sql語句,如select from tes...

Hive架構原理

1 使用者介面 client cli command line inte ce jdbc odbc jdbc訪問hive webui 瀏覽器訪問hive 2 元資料 metastore 元資料報括 表名 表所屬的資料庫 預設是default 表的擁有者 列 分割槽字段 表的型別 是否是外部表 表的資...