資料倉儲Hive

2022-08-02 01:15:16 字數 1495 閱讀 7191

乙個公司裡面不同專案可能用到不同的資料來源,有的存在mysql裡面,又的存在mongodb裡面,甚至還有些要做第三方資料。

但是現在又想把資料整合起來,進行資料分析。此時資料倉儲(data warehouse,dw)就派上用場了。它可以對多種業務資料進行篩選和整合,可以用於資料分析、資料探勘、資料包表。

總的來說,資料倉儲是將多個資料來源的資料按照一定的主題整合起來,因為之前的資料各不相同,所以需要抽取、清洗、轉換

整合以後的資料不允許隨便修改,只能分析,還需要定期更新。

上面我們說過,資料倉儲接收的資料來源是不同的,要做整合的話,需要抽取、清洗、轉換三個步驟,這就是etl(extract-transform-load)

國內最常用的是一款基於hadoop的開源資料倉儲,名為hive,它可以對儲存在hdfs的檔案資料進行查詢、分析

hive對外可以提供hiveql,這是類似於sql語言的一種查詢語言。在查詢時可以將hiveql語句轉換為mapreduce任務,在hadoop層進行執行。

hive的最大優勢在於免費,那其他知名的商業資料倉儲有那些呢?比如oracle,db2,其中業界老大是teradata

teradata資料倉儲支援大規模並行處理平台(mpp),可以高速處理海量實際上,效能遠遠高於hive。對企業來說,只需要專注於業務,節省管理技術方面的精力,實現roi(投資回報率)最大化。

上面提到了hive是最著名的開源資料倉儲,它是hadoop生態中乙個重要的元件。

hadoop的生態中,hdfs解決了分布式儲存的問題,mapreduce解決了分布式計算的問題,而hbase則提供了一種nosql的儲存方法。

但是如果需要的hdfs上的檔案或者hbase的表進行查詢,需要自定義mapreduce方法。那麼hive其實就是在hdfs上面的乙個中間層,它可以讓業務人員直接使用sql進行查詢。

所以hive是用進行資料提取轉換載入的,而且它可以把sql轉換為mapreduce任務,而hive的表就是hdfs的目錄或者檔案。

上圖為hive的體系結構

hive主要包含以下幾種資料模型:

本文為什麼是資料倉儲?的筆記

Hive 資料倉儲

hive命令列模式 1 進入bin 執行.hiv 2 配置hive環境變數,直接執行命令 hive service cli 或 hive hive的web模式 執行hive service hwi 啟動後訪問http master 9999 hwi hive的遠端服務 預設埠 10000,執行啟動命...

資料倉儲Hive

資料倉儲是乙個面向主題的 整合的 相對穩定的 反映歷史變化的資料集合,用於支援管理決策。根本目的是為了支援企業內部的商業分析和決策,基於資料倉儲的分析結果,做出相關的經營決策.資料倉儲中的資料比較穩定,保留了大量歷史資料 而資料庫只儲存某一時刻的資料.對於傳統資料倉儲來說,既是資料儲存產品也是分析產...

hive(資料倉儲工具)

hive是基於hadoop的乙個 資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。其優點是學習成本低,可以通過類sql語句快速實現簡單的mapreduce統計,不必開發專門的mapreduce應用,十分適合 資...