第六章:分布式資料倉儲hive
1.hive的由來:(了解乙個技術或者名詞應該知道它產生的初衷)
2.在hive中使用了4個主要的資料模型:表,外部表,分割槽和桶。
3.hive執行過程中,其元資料可能會不斷被讀取,更新和修改,因此這些元資料不宜存放再hadoop的hdfs中,否則會降低元資料的訪問效率,進一步導致hive的整體效能。目前,hive使用乙個關聯式資料庫來儲存其元資料,hive系統安裝時自帶了乙個內建的小規模記憶體資料庫derby,但是hive也可以讓使用者安裝和使用其他儲存規模更大的專業資料庫,如mysql。
4.hive可通過三種模式連線到資料庫:單使用者模式,多使用者模式,遠端伺服器模式。
5.hive的查詢語言—hiveql
hive主要支援以下幾類操作:
(1).ddl:資料定義語句,包括create,alter,show,describe,drop等;
(2).dml:資料操作語句,包括load data,insert。hive設計中沒有update,因為hive中有時間戳。
(3).query:資料查詢語句,主要是select語句。
分布式資料倉儲設計
分布式模式 維度建模新原則 1 以值代鍵 針對鍵值唯一的維表,除非必要,否則不引入維表,如ip位址維表,採用ip作為維表的主鍵,事實表中儲存ip值 2 合理分表 傳統關係型資料倉儲存在多表整合的衝動,如上圖event事實表,各種acount ind,finance ind等,用來擴充套件表的通用性,...
07分布式資料倉儲 HIVE 函式
hive函式,自帶函式,和自定義函式 自帶函式100多個包括,基本函式 map 聚合函式 reduce 集合函式 map 其他函式 自定義函式包括udf map udaf reduce show functions desc function from unixtime desc function ...
分布式資料倉儲事實表設計思考
一 前言 最近在設計資料倉儲的資料邏輯模型,考慮到海量資料儲存在分布式資料倉儲中的技術架構模式,需要針對傳統的面相關係型資料倉儲的資料儲存模型進行技術改造。設計出一套真正適合分布式資料倉儲的資料儲存模型。二 事實表設計基礎 事實表記錄發生在現實世界中的操作型事件,其所產生的可度數值。事實表的設計完全...