目錄:
初始hive
hive安裝與配置
hive 內建操作符與函式開發
hive jdbc
hive引數
hive 高階程式設計
hive ql
hive shell 基本操作
hive 優化
hive體系結構
hive的原理
第一部分:hive簡介
什麼是hive
•hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。
•本質是將sql轉換為mapreduce程式
第二部分:為什麼使用hive
面臨的問題
人員學習成本太高
專案週期要求太短
我只是需要乙個簡單的環境
mapreduce 如何搞定
複雜查詢好難
join如何實現
為什麼要使用hive
•操作介面採用類sql語法,提供快速開發的能力
•避免了去寫mapreduce,減少開發人員的學習成本
•擴充套件功能很方便
hive的特點
•可擴充套件
hive可以自由的擴充套件集群的規模,一般情況下不需要重啟服務
•延展性
hive支援使用者自定義函式,使用者可以根據自己的需求來實現自己的函式
•容錯
良好的容錯性,節點出現問題sql仍可完成執行
第三部分:hive與hadoop的關係
第四部分:hive與傳統資料庫對比
hive
rdbms
查詢語言
hql
sql
資料儲存
hdfs
raw device or local fs
執行
mapreduce
excutor
執行延遲
高
低
處理資料規模
大
小
索引
0.8版本後加入位圖索引
有複雜的索引
第五部分:hive的歷史
•由facebook 實現並開源
•2023年3月,0.7.0版本 發布,此版本為重大公升級版本,增加了簡單索引,haing等眾多高階特性
•2023年06月,0.7.1 版本發布,修復了一些bug,如在windows上使用jdbc的的問題
• 2023年12月,0.8.0版本發布,此版本為重大公升級版本,增加了insert into 、ha等眾多高階特性
•2023年2月5日,0.8.1版本發布,修復了一些bug,如 使 hive 可以同時執行在 hadoop0.20.x 與 0.23.0
•2023年4月30日,0.9.0版本發布,重大改進版本,增加了對hadoop 1.0.0的支援、實現between等特性
第六部分:hive的未來發展
•增加更多類似傳統資料庫的功能,如儲存過程
•提高轉換成的mapreduce效能
•擁有真正的資料倉儲的能力
•ui部分加強
初始Hive 深入淺出學Hive
第一部分 hive簡介 什麼是hive hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。本質是將sql轉換為mapreduce程式 第二部分 為什麼使用hive 面臨的問題 人員學習成本太高 專案週期要求太短 我只是需要乙個簡單的環境 ...
1 初始Hive 深入淺出學Hive
第一部分 hive簡介 什麼是hive hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。本質是將sql轉換為mapreduce程式 第二部分 為什麼使用hive 面臨的問題 人員學習成本太高 專案週期要求太短 我只是需要乙個簡單的環境 ...
hive引數 深入淺出學Hive
目錄 初始hive hive安裝與配置 hive 內建操作符與函式開發 hive jdbc hive引數 hive 高階程式設計 hive ql hive shell 基本操作 hive 優化 hive體系結構 hive的原理 第一部分 hive 引數 hive.exec.max.created.f...