Hive學習總結之五 HBase和Hive的整合

2021-07-14 11:49:25 字數 527 閱讀 7477

hive和hbase有各自不同的特徵:hive是高延遲、結構化和面向分析的,hbase是低延遲、非結構化和面向程式設計的。hive資料倉儲在hadoop上是高延遲的。hive整合hbase就是為了使用hbase的一些特性。如下是hive和hbase的整合架構:

圖1 hive和hbase架構圖

hive整合hbase可以有效利用hbase資料庫的儲存特性,如行更新和列索引等。在整合的過程中注意維持hbase jar包的一致性。hive整合hbase需要在hive表和hbase表之間建立對映關係,也就是hive表的列(columns)和列型別(column types)與hbase表的列族(column families)及列限定詞(column qualifiers)建立關聯。每乙個在hive表中的域都存在於hbase中,而在hive表中不需要包含所有hbase中的列。hbase中的rowkey對應到hive中為選擇乙個域使用:key來對應,列族(cf:)對映到hive中的其它所有域,列為(cf:cq)。例如下圖2為hive表對映到hbase表:

圖2 hive表對映hbase表

Hive 五 hive與hbase整合

配置 hive 與 hbase 整合的目的是利用 hql 語法實現對 hbase 資料庫的增刪改查操作,基本原理就是利用兩者本身對外的api介面互相進行通訊,兩者通訊主要是依靠hive hbase handler.jar工具類。但請注意 使用hive操作hbase中的表,只是提供了便捷性,前面章節已...

Hadoop學習之HBase和Hive的區別

hive是為簡化編寫mapreduce程式而生的,使用mapreduce做過資料分析的人都知道,很多分析程式除業務邏輯不同外,程式流程基本一樣。在這種情況下,就需要hive這樣的使用者程式設計介面。hive本身不儲存和計算資料,它完全依賴於hdfs和mapreduce,hive中的表純邏輯表,就是些...

Hive總結(五)hive日誌

日誌記錄了程式執行的過程,是一種查詢問題的利器。hive中的日誌分為兩種 1.系統日誌,記錄了hive的運 況,錯誤狀況。2.job 日誌,記錄了hive 中job的執行的歷史過程。系統日誌儲存在什麼地方呢 在hive conf hive log4j.properties 檔案中記錄了hive日誌的...