第一部分:hive簡介
什麼是hive
•hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。
•本質是將sql轉換為mapreduce程式
第二部分:為什麼使用hive
面臨的問題
人員學習成本太高
專案週期要求太短
我只是需要乙個簡單的環境
mapreduce 如何搞定
複雜查詢好難
join如何實現
為什麼要使用hive
•操作介面採用類sql語法,提供快速開發的能力
•避免了去寫mapreduce,減少開發人員的學習成本
•擴充套件功能很方便
hive的特點
•可擴充套件
hive可以自由的擴充套件集群的規模,一般情況下不需要重啟服務
•延展性
hive支援使用者自定義函式,使用者可以根據自己的需求來實現自己的函式
•容錯良好的容錯性,節點出現問題sql仍可完成執行
第三部分:hive與hadoop的關係
發出sql-->hive 處理,轉換成mapreduce,提交任務到hadoop-->mapreduce 執行,hdfs 儲存
第四部分:hive與傳統資料庫對比
hive
rdbms
查詢語言
hqlsql
資料儲存
hdfs
raw device or local fs
執行mapreduce
excutor
執行延遲高低
處理資料規模大小
索引0.8版本後加入位圖索引
有複雜的索引
第五部分:hive的歷史
•由facebook 實現並開源
•2023年3月,0.7.0版本 發布,此版本為重大公升級版本,增加了簡單索引,haing等眾多高階特性
•2023年06月,0.7.1 版本發布,修復了一些bug,如在windows上使用jdbc的的問題
• 2023年12月,0.8.0版本發布,此版本為重大公升級版本,增加了insert into 、ha等眾多高階特性
•2023年2月5日,0.8.1版本發布,修復了一些bug,如 使 hive 可以同時執行在 hadoop0.20.x 與 0.23.0
•2023年4月30日,0.9.0版本發布,重大改進版本,增加了對hadoop 1.0.0的支援、實現between等特性
第六部分:hive的未來發展
•增加更多類似傳統資料庫的功能,如儲存過程
•提高轉換成的mapreduce效能
•擁有真正的資料倉儲的能力
•ui部分加強
大資料 Hive 簡介
第一部分 hive簡介 什麼是hive hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。本質是將sql轉換為mapreduce程式 第二部分 為什麼使用hive 面臨的問題 人員學習成本太高 專案週期要求太短 我只是需要乙個簡單的環境 ...
大資料倉儲hive初識簡介
hive是facebook實現並開源的用於解決海量結構化日誌的資料統計,是為了解決mapreduce程式設計的不便性以及成本高的問題,可以簡化操作 什麼是hive 處理的資料儲存在hdfs上 底層分析資料的實現是mapreduce 執行程式執行在yarn上 hive是基於hadoop的乙個資料倉儲工...
大資料簡介
計算的速度比較慢 計算的資料量大 需要的技術hadoop hive 離線分析,他的本質就是hadoop sqoop 協作框架 hbase 資料庫,非關係型資料庫,分布式資料庫 flume 寫作框架,收集日誌資料 cm 圖形化管理器,監控集群資源狀態,部署集群。計算的資料量體量沒有離線大。計算的速度快...