慕課網基礎教程推薦:
資料倉儲是乙個面向主體的、整合的、不可更新的、隨時間不斷變化的資料集合,
它用於企業或組織的決策分析處理。
資料來源(業務資料系統、文件資料、其他資料)
--> 抽取(extract)、轉換(transform)、裝載(load)
--> 資料倉儲引擎(伺服器)
--> 前端展示(查詢、報表、分析、各類應用)
直譯器:詞法分析
編譯器:生成hql的執行計畫
優化器:生成最佳執行計畫(mapreduce)
執行基本資料型別:
複雜資料型別(可巢狀):
時間型別:
預設使用逗號(,)分隔符
通過條件將表分割槽:
# 根據gender分表
create
table patition_t
(sid int, sname string, gender string)
patitioned by (gender string)
row format delimited fields terminated by
',';
# 插入一條資料
insert
into patition_t patition(gender='m') select sid, sname from sample_data where gender='m';
#建立檢視
create view my_view
asselect ...
關係型資料庫可以物化檢視,而hive不可以。 Hive知識之Hive基礎
5 hive的基本操作 5.2 資料表相關操作 6 資料的匯入和匯出 1 hive簡介 2 hive與傳統關係型資料庫的比較 專案hive rdbms 查詢語言 hqlsql 資料儲存 hdfs raw device or local fs 執行mapreduce excuter 執行延遲高低 處理...
Hive中優化經驗小結
以下內容整理自學習資料和自己平時實踐中遇見的一些問題和經驗小結 避免記憶體溢位 將條目少的表 子查詢放在 join的左邊。原因是在 join 操作的 reduce 階段,位於 join左邊的表的內容會被載入進記憶體,將條目少的表放在左邊,可以有效減少發生記憶體溢位的機率。解決資料傾斜問題,多發生於資...
hive基礎命令
小白上路嘍,從命令列開始 show database use db name show tables desc tb name show functions desc function fc name 執行hive sql指令碼 hive f script.sql 設定mapreduce 佇列 設定...