資料倉儲是一種關聯式資料庫模式,其中儲存了來自乙個或者多個源資料庫的歷史資料和元資料。資料倉儲的目的是便於將資料的報告和分析彙總到多個層次。
或者更簡單點:是作為乙個存放企業各個領域的資料的單獨且有組織的庫。
典型的資料倉儲有以下的一些特點:
涉及多個主題域
有十分詳細的資訊
集合來自不同資料來源的資料
不一定使用維模型,但提供維模型
另一方面,資料集市是資料倉儲的乙個訪問層,用於從資料倉儲抽取相關的資料給使用者,資料集市是資料倉儲的乙個子集,通常面向特定的業務線或者團隊(財政部門、市場部門、銷售部門等都有他們自己的資料集市data mart).
資料集市:乙個獨立的資料集市是更大的資料倉儲的乙個邏輯子集或者物理子集,通常是相互獨立的,因為資料模式和模型彼此間是不同的。微軟提出的tabular模型則是的你可以直接從資料倉儲抽取資料而無需從資料集市抽取資料。
本人使用 hive搭建資料倉儲,hadoop生態圈可以提供很多任務具和介面進行搭建企業級資料倉儲。
資料倉儲搭建
1.資料倉儲需求分析 1.1主題分析 確定主題 使用者從哪些角度來分析資料 主題 比如銷售主體 指標 維度 粒度 1.2資料分析 了解資料情況,是否可以支撐主題 資料來源分析 資料來源的資料表的關係,資料表的內容 資料量分析 記錄和字段的量進行乙個統計分析 資料質量分析 正確性分析 一致性分析 規範...
資料倉儲與資料集市的概念區別
企業從事資料倉儲專案時,往往會遇到多個資料倉儲軟體 商。各 商除了推銷相關的軟體工具外,同時會向企業灌輸許多概念,其中,資料倉儲和資料集市是最常見的。由於術語定義不統一,另外各個 商銷售策略不一樣,往往會給企業帶來很大的混淆。最典型的問題是 到底是先上乙個企業級的資料倉儲呢?還是先上乙個部門級的資料...
資料倉儲怎麼搭建?
資料倉儲怎麼搭建?在網上一搜,有太多的大廠中廠數倉完整實踐的文章,已經能把數倉由哪些組成,各部分如何建設,重點難點和解決方法都講的很清楚。我接觸到的大多數數倉開發者對於資料倉儲都有乙個較為完整的了解,各個部分也都能說得頭頭是道。可另一方面,從我了解到的片面的行業資訊來說,除了在網上發文章的那些公司,...