資料倉儲 資料集市和資料湖三者的區別

2021-09-29 18:01:03 字數 925 閱讀 4566

資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。資料倉儲算是優化的資料庫,用於分析來自事務系統和業務線應用程式的關係資料,事先定義資料結構和約束來優化sql查詢速度,其中結果通常用於操作報告和分析,資料經過etl,可以充當使用者信任的資料來源。

資料集市:資料集市就是滿足特定的部門或者使用者的需求,按照多維的方式進行儲存,包括定義維度、需要計算的指標、維度的層次等,生成面向決策分析需求的資料立方體。資料集市通常被定義成星形結構,一辦由一張事實表和幾張維度表組成。

維度是資料的多維模型,資料倉儲的多維資料模型有:

1、主題:要分析的具體方面,一般有兩個元素:分析的角度,分析的量度

2、維:從不同的角度描述事物特徵,一版維有多個級別,例如時間維有年月日等級別

3、量度:要分析的具體指標,例如年銷售額之類的,一般為數值型資料。

4、粒度:資料的細分層度,比如按天分、按小時分。

5、事實表和維度表:事實表是記錄分析內容的全部資訊,包含每個事情的具體要素,以及具體發生的事情,維度表是對事實表中事件要素的描述資訊,就是觀察該事務的角度。

資料湖:乙個集中的儲存庫,可以稱為原始資料池,儲存的就是未經處理的原始資料,這些資料可以是結構化資料和分結構化資料,不需要在儲存階段進行約束。

針對資料倉儲和資料集市來講,資料倉儲是企業級的,能為企業所有部門的執行提供決策支援手段,而資料集市算是資料倉儲的乙個子集,一般服務於乙個或幾個部門,資料由資料倉儲提供。資料湖儲存的大量原始資料,沒有約束條件,能保證資料的精確度,可以進行實時分析,也可以滿足資料倉儲批處理資料探勘的需求。資料倉儲本身就是高度結構化,資料在轉換之前無法載入到資料倉儲中,使用者可以直接獲得分析的資料。資料湖在資料時沒有約束,資料直接載入到資料湖中,然後根據需求再轉換資料。

資料倉儲和資料湖的區別

在實際專案開發中,需要和資料倉儲以及資料湖那邊的開發同事進行對接,頭一次聽到這兩個名詞,自己也是一頭霧水。下面我就以我自己的理解,簡單的向大家介紹一下。資料庫 就是儲存當前的業務資料,集中儲存的是公司經常使用到的資料 儲存的是公司近50年的資料 資料倉儲 也是儲存的公司的各種業務資料,主要集中儲存的...

資料湖 資料集市 資料倉儲 入門級理解

每個應用程式會產生 儲存大量資料,而這些資料並不能被其他應用程式使用,這種狀況導致資料孤島的產生。資料湖 是乙個儲存企業的各種各樣原始資料的大型倉庫。儲存所有型別的資料,如結構化資料,非結構化資料,半結構化資料等,資料的型別依賴於資料來源系統的原始資料格式。資料湖通常包含更多的相關的資訊,這些資訊有...

資料倉儲到搭建資料集市

資料倉儲是一種關聯式資料庫模式,其中儲存了來自乙個或者多個源資料庫的歷史資料和元資料。資料倉儲的目的是便於將資料的報告和分析彙總到多個層次。或者更簡單點 是作為乙個存放企業各個領域的資料的單獨且有組織的庫。典型的資料倉儲有以下的一些特點 涉及多個主題域 有十分詳細的資訊 集合來自不同資料來源的資料 ...