資料倉儲hive(簡介與應用)

2021-08-02 12:26:18 字數 1009 閱讀 5452

資料倉儲概念:資料倉儲(

data warehouse

)是乙個面向主題的(

subject oriented

)、整合的(

integrated

)、相對穩定的(

non-volatile

)、反映歷史變化(

time variant

)的資料集合,用於支援管理決策。

hive簡介:

•hive

是乙個構建於

hadoop

頂層的資料倉儲工具

•支援大規模資料儲存、分析,具有良好的可擴充套件性

•某種程度上可以看作是使用者程式設計介面,本身不儲存和處理資料

•依賴分布式檔案系統

hdfs

儲存資料

•依賴分布式平行計算模型

mapreduce

處理資料

•定義了簡單的類似

sql

的查詢語言

——hiveql

•使用者可以通過編寫的

hiveql

語句執行

mapreduce

任務•可以很容易把原來構建在關聯式資料庫上的資料倉儲應用程式移植到

hadoop

平台上•是乙個可以提供有效、合理、直觀組織和使用資料的分析工具

由於是構建於hadoop平台上的,由此它的底層資料儲存是通過hdfs實現的,並依賴於mapreduce處理資料(把hiveql語句轉換為mapreduce任務進行),通過hbase提供實時的資料訪問,支援批量插入。

hive在企業大資料分析平台中的應用:

大資料倉儲hive初識簡介

hive是facebook實現並開源的用於解決海量結構化日誌的資料統計,是為了解決mapreduce程式設計的不便性以及成本高的問題,可以簡化操作 什麼是hive 處理的資料儲存在hdfs上 底層分析資料的實現是mapreduce 執行程式執行在yarn上 hive是基於hadoop的乙個資料倉儲工...

Hive 資料倉儲

hive命令列模式 1 進入bin 執行.hiv 2 配置hive環境變數,直接執行命令 hive service cli 或 hive hive的web模式 執行hive service hwi 啟動後訪問http master 9999 hwi hive的遠端服務 預設埠 10000,執行啟動命...

資料倉儲Hive

資料倉儲是乙個面向主題的 整合的 相對穩定的 反映歷史變化的資料集合,用於支援管理決策。根本目的是為了支援企業內部的商業分析和決策,基於資料倉儲的分析結果,做出相關的經營決策.資料倉儲中的資料比較穩定,保留了大量歷史資料 而資料庫只儲存某一時刻的資料.對於傳統資料倉儲來說,既是資料儲存產品也是分析產...