hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。
其本質是將sql轉換為mapreduce的任務進行運算,底層由hdfs來提供資料的儲存,通常進行一次寫多次讀操作。
優點
介面採用類sql語法
,簡單易上手
避免寫mapreduce,減少開發人員學習成本
適合處理大資料
,常用於對實時性要求不高
的資料分析場合
支援自定義函式
缺點
hql表達能力有限,無法表達迭代式演算法,不擅長資料探勘
效率較低,自動生成的mr作業不夠智慧型化,調優較困難
,粒度不夠細
1. 查詢語言:查詢語言類似
2. 資料儲存位置:hive資料存在hdfs中,資料庫的資料存塊裝置或本地檔案系統中
3. 資料更新:hive 中資料多讀少寫,資料庫中資料經常需要修改
4. 索引:hive暴力掃瞄整個資料,無索引,資料庫為資料建立索引
5. 執行:hive大多通過hadoop提供的mr實現查詢,資料庫則通過自己的執行引擎
6. 執行延遲:hive暴力掃瞄,採用mr,具有較高延遲,資料庫建立索引,延遲較低,但hive可並行處理大規模資料,而資料庫可處理的資料規模十分有限
7. 可拓展性:hive基於hadoop,拓展性與hadoop一致;資料庫受acid(事務管理)語義限制,最先進oracle的理論拓展100臺
8. 資料規模:hive支援大規模資料,資料庫可支援的資料規模較小
hive基本介紹和基礎
1 hive基本概念 hive基於hadoop的乙個資料倉儲工具 hive本身不提供資料儲存功能,使用hdfs做資料儲存 hive也是分布式計算框架,hive的核心工作就是把sql語句翻譯成mr程式 hive不提供資源排程,也是預設由hadoop當中yarn集群來排程 可以將結構的資料對映為一張資料...
Hive簡單介紹
學習慕課網 走近大資料之hive入門 教程的筆記。簡單介紹了hive的安裝,使用和基礎知識。hive是基於hadoop之上的資料倉儲 也是一種資料庫 資料倉儲一般不更新,一直增大。資料倉儲的結構和建立過程 oltp 聯機事務處理,例 銀行轉賬。olap 聯機分析處理,例 商品推薦系統。資料倉儲的資料...
Hive 介紹 概念
hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能 hql 其本質是將sql轉換為mapreduce的任務進行運算,底層由hdfs來提供資料的儲存,hive可以理解為乙個將sql轉換為mapreduce的任務的工具。每次的執行開銷較大,任務...