1. 主題性
資料倉儲是一般從使用者實際需求出發,將不同平台的資料來源按設定主題進行劃分整合,與傳統的面向事務的操作型資料庫不同,具有較高的抽象性。面向主題的資料組織方式,就是在較高層次對分析物件資料的乙個完整、統一並一致的描述,能完整及統一地刻畫各個分析物件所涉及的有關企業的各項資料,以及資料之間的聯絡。
2.整合性
資料倉儲中儲存的資料大部分**於傳統的資料庫,但並不是將原有資料簡單的直接匯入,而是需要進行預處理。這是因為事務型資料中的資料一般都是有雜訊的、不完整的和資料形式不統一的。這些「髒資料」的直接匯入將對在資料倉儲基礎上進行的資料探勘造成混亂。「髒資料」在進入資料倉儲之前必須經過抽取、清洗、轉換才能生成從面向事務轉而面向主題的資料集合。資料整合是資料倉儲建設中最重要,也是最為複雜的一步。
3.穩定性
資料倉儲中的資料主要為決策者分析提供資料依據。決策依據的資料是不允許進行修改的。即資料儲存到資料倉儲後,使用者僅能通過分析工具進行查詢和分析,而不能修改。資料的更新公升級主要都在資料整合環節完成,過期的資料將在資料倉儲中直接篩除。
4.動態性
資料倉儲資料會隨時間變化而定期更新,不可更新是針對應用而言,即使用者分析處理時不更新資料。每隔一段固定的時間間隔後,抽取執行資料庫系統中產生的資料,轉換後整合到資料倉儲中。隨著時間的變化,資料以更高的綜合層次被不斷綜合,以適應趨勢分析的要求。當資料超過資料倉儲的儲存期限,或對分析無用時,從資料倉儲中刪除這些資料。關於資料倉儲的結構和維護資訊儲存在資料倉儲的元資料(metadata)中,資料倉儲維護工作由系統根據其中的定義自動進行或由系統管理員定期維護。
Hive資料倉儲設計的四個層次設計
資料倉儲 資料倉儲全面接收源系統資料,etl程序對資料進行規範化 驗證 清洗,並最終裝載進入資料集市,通過資料集市支援系統進行資料查詢 分析,整個資料倉儲包含四大層次。etl extractiontransformation loading 負責將分散的 異構資料來源中的資料抽取到臨時中間層後進行清...
事務 四個特性
事務具有4個特徵,分別是原子性 一致性 隔離性和永續性,簡稱事務的acid特性 一 原子性 atomicity 乙個事務要麼全部提交成功,要麼全部失敗回滾,不能只執行其中的一部分操作,這就是事務的原子性 二 一致性 consistency 事務的執行不能破壞資料庫資料的完整性和一致性,乙個事務在執行...
Hive開發要知道資料倉儲的四個層次設計
資料倉儲 資料倉儲全面接收源系統資料,etl程序對資料進行規範化 驗證 清洗,並最終裝載進入資料集市,通過資料集市支援系統進行資料查詢 分析,整個資料倉儲包含四大層次。etl extractiontransformation loading 負責將分散的 異構資料來源中的資料抽取到臨時中間層後進行清...