分布式資料倉儲Hive

第六章：分布式資料倉儲hive

1.hive的由來：(了解乙個技術或者名詞應該知道它產生的初衷)

2.在hive中使用了4個主要的資料模型：表，外部表，分割槽和桶。

3.hive執行過程中，其元資料可能會不斷被讀取，更新和修改，因此這些元資料不宜存放再hadoop的hdfs中，否則會降低元資料的訪問效率，進一步導致hive的整體效能。目前，hive使用乙個關聯式資料庫來儲存其元資料，hive系統安裝時自帶了乙個內建的小規模記憶體資料庫derby，但是hive也可以讓使用者安裝和使用其他儲存規模更大的專業資料庫，如mysql。

4.hive可通過三種模式連線到資料庫：單使用者模式，多使用者模式，遠端伺服器模式。

5.hive的查詢語言—hiveql

hive主要支援以下幾類操作：

(1).ddl：資料定義語句，包括create,alter,show,describe,drop等；

(2).dml：資料操作語句，包括load data,insert。hive設計中沒有update，因為hive中有時間戳。

(3).query:資料查詢語句，主要是select語句。

分布式資料倉儲設計

分布式模式維度建模新原則 1 以值代鍵針對鍵值唯一的維表，除非必要，否則不引入維表，如ip位址維表，採用ip作為維表的主鍵，事實表中儲存ip值 2 合理分表傳統關係型資料倉儲存在多表整合的衝動，如上圖event事實表，各種acount ind，finance ind等，用來擴充套件表的通用性，...

07分布式資料倉儲 HIVE 函式

hive函式，自帶函式，和自定義函式自帶函式100多個包括，基本函式 map 聚合函式 reduce 集合函式 map 其他函式自定義函式包括udf map udaf reduce show functions desc function from unixtime desc function ...

分布式資料倉儲事實表設計思考

一前言最近在設計資料倉儲的資料邏輯模型，考慮到海量資料儲存在分布式資料倉儲中的技術架構模式，需要針對傳統的面相關係型資料倉儲的資料儲存模型進行技術改造。設計出一套真正適合分布式資料倉儲的資料儲存模型。二事實表設計基礎事實表記錄發生在現實世界中的操作型事件，其所產生的可度數值。事實表的設計完全...

分布式資料倉儲Hive

分布式資料倉儲設計

07分布式資料倉儲 HIVE 函式

分布式資料倉儲事實表設計思考

相關推薦