大資料 Hive 簡介

第一部分：hive簡介

什麼是hive

•hive是基於hadoop的乙個資料倉儲工具，可以將結構化的資料檔案對映為一張資料庫表，並提供類sql查詢功能。

•本質是將sql轉換為mapreduce程式

第二部分：為什麼使用hive

面臨的問題

人員學習成本太高

專案週期要求太短

我只是需要乙個簡單的環境

mapreduce 如何搞定

複雜查詢好難

join如何實現

為什麼要使用hive

•操作介面採用類sql語法，提供快速開發的能力

•避免了去寫mapreduce，減少開發人員的學習成本

•擴充套件功能很方便

hive的特點

•可擴充套件

hive可以自由的擴充套件集群的規模，一般情況下不需要重啟服務

•延展性

hive支援使用者自定義函式，使用者可以根據自己的需求來實現自己的函式

•容錯良好的容錯性，節點出現問題sql仍可完成執行

第三部分：hive與hadoop的關係

發出sql-->hive 處理，轉換成mapreduce,提交任務到hadoop-->mapreduce 執行，hdfs 儲存

第四部分：hive與傳統資料庫對比

hive

rdbms

查詢語言

hqlsql

資料儲存

hdfs

raw device or local fs

執行mapreduce

excutor

執行延遲高低

處理資料規模大小

索引0.8版本後加入位圖索引

有複雜的索引

第五部分：hive的歷史

•由facebook 實現並開源

•2023年3月，0.7.0版本發布，此版本為重大公升級版本，增加了簡單索引，haing等眾多高階特性

•2023年06月，0.7.1 版本發布，修復了一些bug，如在windows上使用jdbc的的問題

• 2023年12月，0.8.0版本發布，此版本為重大公升級版本，增加了insert into 、ha等眾多高階特性

•2023年2月5日，0.8.1版本發布，修復了一些bug，如使 hive 可以同時執行在 hadoop0.20.x 與 0.23.0

•2023年4月30日，0.9.0版本發布，重大改進版本，增加了對hadoop 1.0.0的支援、實現between等特性

第六部分：hive的未來發展

•增加更多類似傳統資料庫的功能，如儲存過程

•提高轉換成的mapreduce效能

•擁有真正的資料倉儲的能力

•ui部分加強

大資料 Hive 簡介

第一部分 hive簡介什麼是hive hive是基於hadoop的乙個資料倉儲工具，可以將結構化的資料檔案對映為一張資料庫表，並提供類sql查詢功能。本質是將sql轉換為mapreduce程式第二部分為什麼使用hive 面臨的問題人員學習成本太高專案週期要求太短我只是需要乙個簡單的環境 ...

大資料倉儲hive初識簡介

hive是facebook實現並開源的用於解決海量結構化日誌的資料統計，是為了解決mapreduce程式設計的不便性以及成本高的問題，可以簡化操作什麼是hive 處理的資料儲存在hdfs上底層分析資料的實現是mapreduce 執行程式執行在yarn上 hive是基於hadoop的乙個資料倉儲工...

大資料簡介

計算的速度比較慢計算的資料量大需要的技術hadoop hive 離線分析，他的本質就是hadoop sqoop 協作框架 hbase 資料庫，非關係型資料庫，分布式資料庫 flume 寫作框架，收集日誌資料 cm 圖形化管理器，監控集群資源狀態，部署集群。計算的資料量體量沒有離線大。計算的速度快...

大資料 Hive 簡介

大資料 Hive 簡介

大資料倉儲hive初識簡介

大資料簡介

相關推薦