Hive 1 資料倉儲

2021-09-19 16:56:48 字數 1249 閱讀 1052

資料倉儲:

data warehouse(dw , dwh).

資料倉儲的目的: 構建面向分析的整合化資料環境。

名字叫做data warehourse 資料倉儲

倉庫:主要用於儲存東西的,不會生產東西,也不會消耗東西

資料倉儲:不會產生任何的資料,也不會消耗任何的資料,只是用於儲存這些資料 主要用於分析性報告和決策支援

資料倉儲主要特徵:

(1)面向主題:

有確切的分析目標

(3)非易失性:

資料一旦進入資料倉儲不會輕易改變

(4)時變性:

根據不用的指標求取,產生不同的分析維度

資料庫與資料倉儲的區別

資料庫:oltp on-line transaction processing 聯機事務處理 使用者資料庫當中的增刪改查. (為了捕獲資料而存在)

資料倉儲:

olap on-line analytical processing

聯機分析處理,主要用於分析查詢,操作的都是歷史資料,不會增加,也不會修改,只進行查詢,更不會修改

資料庫是面向事務的設計,資料倉儲是面向主題設計的。

資料庫一般儲存業務資料,資料倉儲儲存的一般是歷史資料。

資料庫設計是盡量避免冗餘,一般針對某一業務應用進行設計,比如一張簡單的user表,記錄使用者名稱、密碼等簡單資料即可,符合業務應用,但是不符合分析。資料倉儲在設計是有意引入冗餘,依照分析需求,分析維度、分析指標進行設計。

資料庫是為捕獲資料而設計,資料倉儲是為分析資料而設計。

資料倉儲,是在資料庫已經大量存在的情況下,為了進一步挖掘資料資源、為了決策需要而產生的,它決不是所謂的「大型資料庫」。

按照資料流入流出的過程,資料倉儲架構可分為三層——源資料、資料倉儲、資料應用。

為什麼要對資料倉儲分層?

用空間換時間,通過大量的預處理來提公升應用系統的使用者體驗(效率),因此資料倉儲會存在大量冗餘的資料;不分層的話,如果源業務系統的業務規則發生變化將會影響整個資料清洗過程,工作量巨大。

通過資料分層管理可以簡化資料清洗的過程,因為把原來一步的工作分到了多個步驟去完成,相當於把乙個複雜的工作拆成了多個簡單的工作,把乙個大的黑盒變成了乙個白盒,每一層的處理邏輯都相對簡單和容易理解,這樣我們比較容易保證每乙個步驟的正確性,當資料發生錯誤的時候,往往我們只需要區域性調整某個步驟即可。

5、資料倉儲的元資料管理:主要用於記錄資料庫表之間的關係,資料庫表字段的含義等等

還有包括一些資料處理的規則,資料裝載的週期,資料匯出的週期等等

Hive 資料倉儲

hive命令列模式 1 進入bin 執行.hiv 2 配置hive環境變數,直接執行命令 hive service cli 或 hive hive的web模式 執行hive service hwi 啟動後訪問http master 9999 hwi hive的遠端服務 預設埠 10000,執行啟動命...

資料倉儲Hive

資料倉儲是乙個面向主題的 整合的 相對穩定的 反映歷史變化的資料集合,用於支援管理決策。根本目的是為了支援企業內部的商業分析和決策,基於資料倉儲的分析結果,做出相關的經營決策.資料倉儲中的資料比較穩定,保留了大量歷史資料 而資料庫只儲存某一時刻的資料.對於傳統資料倉儲來說,既是資料儲存產品也是分析產...

資料倉儲Hive

乙個公司裡面不同專案可能用到不同的資料來源,有的存在mysql裡面,又的存在mongodb裡面,甚至還有些要做第三方資料。但是現在又想把資料整合起來,進行資料分析。此時資料倉儲 data warehouse,dw 就派上用場了。它可以對多種業務資料進行篩選和整合,可以用於資料分析 資料探勘 資料包表...