Hive簡介 基本架構與儲存結構

2021-09-24 14:56:15 字數 1233 閱讀 6741

2. hive的基本架構

3. hive的儲存模型

reference

1.1 什麼是hive?

hive是facebook實現的乙個開源資料倉儲工具——

這裡還需要理解一下資料倉儲,資料倉儲可以簡單理解為存放不同資料來源(比如公司支撐不同業務的資料庫)的倉庫,主要用於查詢和分析,也就是基於這些資料去做報表分析、資料探勘等工作,為企業的決策提供方向和支援。更詳細的介紹可以參考資料倉儲入門,看這這一篇就夠了。

1.2 hive有什麼用?

hive的優缺點很明顯——

這些優缺點(設計)決定了它的應用場景——作為乙個資料倉儲存放企業級的不同資料來源的海量資料,去分析、挖掘這些資料,得到有意義的資訊

2.1 hive的架構與元件

hive的基本架構如下(來自hive學習之路 (一)hive初識):

如上圖,可以分為4個部分——

使用者介面層,與hive進行互動,包括三種方式

driver元件,driver元件完成對hql語句的語法分析、編譯、優化,轉化為mr任務並執行,具體地有直譯器、編譯器、優化器、執行器四個部分組成

metastore元資料儲存元件,包括metastore服務元資料的儲存(即hive中資料的描述,如表的名字、屬性、位置等)

3.1 hive基本儲存模型

hive的儲存模型包括資料庫、表、檢視、分割槽、表資料,除了表資料,剩下的在hdfs上均表現為hdfs上的乙個目錄,依次簡單介紹如下:

3.2 區分幾種表

hive中的表可以分為內部表外部表,其中——

對於hive中的表,可以建立為分割槽表桶表,其中——

資料倉儲入門,看這這一篇就夠了

hive學習之路 (一)hive初識

大資料時代的技術hive:hive介紹

hive介紹與核心知識點

kudu 的基本架構 儲存結構與讀寫原理

tmaster 主要用來管理元資料,即tablet 和 表的基本資訊,監聽tserver的狀態,tmaster之間通過raft協議進行資料同步 tserver 主要用來管理tablet tablet 負責這一張表的某塊內容的讀寫,接受其他tablet leader 傳來的同步資訊,至於什麼是tabl...

YARN 設計理念與基本架構

排程器 該排程器是乙個 純排程器 不再參與任何與具體應用程式邏輯相關的工作,而僅根據各個應用程式的資源需求進行分配,資源分配的單位用乙個資源抽象概念 container 來表示。container 封裝了記憶體和 cpu。此外,排程器是乙個可插拔的元件,使用者可根據自己的需求設計新的排程器,yarn...

YARN 設計理念與基本架構

排程器 該排程器是乙個 純排程器 不再參與任何與具體應用程式邏輯相關的工作,而僅根據各個應用程式的資源需求進行分配,資源分配的單位用乙個資源抽象概念 container 來表示。container 封裝了記憶體和 cpu。此外,排程器是乙個可插拔的元件,使用者可根據自己的需求設計新的排程器,yarn...