1. 什麼是hive
•hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。
•本質是將hql轉換為mapreduce程式
2. 為什麼使用hive
•操作介面採用類sql語法,提供快速開發的能力
•避免了去寫mapreduce,減少開發人員的學習成本
•擴充套件功能很方便
3. hive 特點
•可擴充套件
hive可以自由的擴充套件集群的規模,一般情況下不需要重啟服務
•延展性
hive支援使用者自定義函式,使用者可以根據自己的需求來實現自己的函式
•容錯良好的容錯性,節點出現問題sql仍可完成執行
4. hive 與hadoop 關係
發出hql —> hive 轉換成mapreduce —> mapreduce —> 對hdfs進行操作
5. hive 與傳統資料對比
hive
rdbms
查詢語言
hql
sql
資料儲存
hdfs
raw device or local fs
執行
mapreduce
excutor
執行延遲
高
低
處理資料規模
大
小
索引
0.8版本後加入位圖索引
有複雜的索引
6. hive 的未來
•增加更多類似傳統資料庫的功能,如儲存過程
•提高轉換成的mapreduce效能
•擁有真正的資料倉儲的能力
•ui部分加強
深入淺出學Hive Hive引數
第一部分 hive 引數 hive.exec.max.created.files 說明 所有hive執行的map與reduce任務可以產生的檔案的和 預設值 100000 hive.exec.dynamic.partition 說明 是否為自動分割槽 預設值 false hive.mapred.re...
索引深入淺出 1 10 索引簡介
很多人對索引都沒有乙個清晰的認識,對於聚集索引和非聚集索引之間的區別也不是很清楚。如果有人問我索引是什麼,我覺得這個問題有點大,很難在一篇文章裡解釋清楚。所以我決定嘗試寫這一系列文章,用乙個簡單的,可以理解的方法解釋索引,儘管網上關於索引的文章有一籮筐那麼多。簡單來說,索引幫助資料庫引擎使用最小的資...
索引深入淺出 1 10 索引簡介
很多人對索引都沒有乙個清晰的認識,對於聚集索引和非聚集索引之間的區別也不是很清楚。如果有人問我索引是什麼,我覺得這個問題有點大,很難在一篇文章裡解釋清楚。所以我決定嘗試寫這一系列文章,用乙個簡單的,可以理解的方法解釋索引,儘管網上關於索引的文章有一籮筐那麼多。簡單來說,索引幫助資料庫引擎使用最小的資...