英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲的目的是構建面向分析的整合化資料環境,為企業提供決策支援(decision support)。
資料倉儲是存資料的,企業的各種資料往裡面存,主要目的是為了分析有效資料,後續會基於它產出供分析挖掘的資料,或者資料應用需要的資料,如企業的分析性報告和各類報表等。
可以理解為:面向分析的儲存系統
。
資料倉儲是面向主題的(subject-oriented )、整合的(integrated)、非易失的(non-volatile)和時變的(time-variant )資料集合,用以支援管理決策。
1.2.1. 面向主題
資料倉儲是面向主題的,資料倉儲通過乙個個主題域將多個業務系統的資料載入到一起,為了各個主題(如:使用者、訂單、商品等)進行分析而建,操作型資料庫是為了支撐各種業務而建立。
1.2.2. 整合性
資料倉儲會將不同源資料庫中的資料彙總到一起,資料倉儲中的綜合資料不能從原有的資料庫系統直接得到。因此在資料進入資料倉儲之前,必然要經過統一與整合,這一步是資料倉儲建設中最關鍵、最複雜的一步(etl),要統一源資料中所有矛盾之處,如字段的同名異義、異名同義、單位不統
一、字長不一致,等等。
1.2.3. 非易失性
操作型資料庫主要服務於日常的業務操作,使得資料庫需要不斷地對資料實時更新,以便迅速獲得當前最新資料,不至於影響正常的業務運作。
在資料倉儲中只要儲存過去的業務資料,不需要每一筆業務都實時更新資料倉儲,而是根據商業需要每隔一段時間把一批較新的資料匯入資料倉儲。 資料倉儲的資料反映的是一段相當長的時間內歷史資料的內容,是不同時點的資料庫的集合,以及基於這些快照進行統計、綜合和重組的匯出資料。資料倉儲中的資料一般僅執行查詢操作,很少會有刪除和更新。但是需定期載入和重新整理資料。
1.2.4. 時變性
資料倉儲包含各種粒度的歷史資料。資料倉儲中的資料可能與某個特定日期、星期、月份、季度或者年份有關。資料倉儲的目的是通過分析企業過去一段時間業務的經營狀況,挖掘其中隱藏的模式。雖然資料倉儲的使用者不能修改資料,但並不是說資料倉儲的資料是永遠不變的。分析的結果只能反映過去的情況,當業務變化後,挖掘出的模式會失去時效性。因此資料倉儲的資料需要定時更新,以適應決策的需要。
資料庫與資料倉儲的區別實際講的是oltp
與olap
的區別。
操作型處理,叫聯機事務處理 oltp(on-line transaction processing,),也可以稱面向交易的處理系統,它是針對具體業務在資料庫聯機的日常操作,通常對少數記錄進行查詢、修改。使用者較為關心操作的響應時間、資料的安全性、完整性和併發支援的使用者數等問題。傳統的資料庫系統作為資料管理的主要手段,主要用於操作型處理。
分析型處理,叫聯機分析處理 olap(on-line analytical processing)一般針對某些主題的歷史資料進行分析,支援 管理決策。
首先要明白,資料倉儲的出現,並不是要取代資料庫。
什麼是 hive
hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。
其本質是將sql轉換為mapreduce的任務進行運算,底層由hdfs來提供資料的儲存,說白了hive可以理解為乙個將sql轉換為mapreduce的任務的工具,甚至更進一步可以說hive就是乙個mapreduce的客戶端
為什麼使用 hive
Hive 資料倉儲
hive命令列模式 1 進入bin 執行.hiv 2 配置hive環境變數,直接執行命令 hive service cli 或 hive hive的web模式 執行hive service hwi 啟動後訪問http master 9999 hwi hive的遠端服務 預設埠 10000,執行啟動命...
資料倉儲Hive
資料倉儲是乙個面向主題的 整合的 相對穩定的 反映歷史變化的資料集合,用於支援管理決策。根本目的是為了支援企業內部的商業分析和決策,基於資料倉儲的分析結果,做出相關的經營決策.資料倉儲中的資料比較穩定,保留了大量歷史資料 而資料庫只儲存某一時刻的資料.對於傳統資料倉儲來說,既是資料儲存產品也是分析產...
資料倉儲Hive
乙個公司裡面不同專案可能用到不同的資料來源,有的存在mysql裡面,又的存在mongodb裡面,甚至還有些要做第三方資料。但是現在又想把資料整合起來,進行資料分析。此時資料倉儲 data warehouse,dw 就派上用場了。它可以對多種業務資料進行篩選和整合,可以用於資料分析 資料探勘 資料包表...