資料湖 資料集市 資料倉儲 入門級理解

2021-10-14 16:02:50 字數 871 閱讀 1441

每個應用程式會產生、儲存大量資料,而這些資料並不能被其他應用程式使用,這種狀況導致資料孤島的產生。

資料湖

是乙個儲存企業的各種各樣原始資料的大型倉庫

儲存所有型別的資料,如結構化資料,非結構化資料,半結構化資料等,資料的型別依賴於資料來源系統的原始資料格式。

資料湖通常包含更多的相關的資訊,這些資訊有很高概率會被訪問,並且能夠為企業挖掘新的運營需求

資料倉儲

只能對結構化資料進行處理,而且這些資料必須與資料倉儲事先定義的模型吻合。

處理結構化資料,將它們或者轉化為多維資料,或者轉換為報表,以滿足後續的高階報表及資料分析需求。

資料湖與資料倉儲的差別很明顯。然而,在企業中兩者的作用是互補的,不應認為資料湖的出現是為了取代資料倉儲,畢竟兩者的作用是截然不同的。

資料倉儲與資料集市

資料倉儲中資料結構採用的規範化模式,三正規化(關聯式資料庫設計理論)是面向企業(資料粒度,最細的粒度

資料集市的資料結構採用的星型模式,雪花模型、兩者混合(多維資料庫設計理論)是面相部門(資料粒度,較粗的粒度

BI中事實表,維度表和資料集市,資料倉儲的理解

維度表 dimension 存放著一些維度屬性,例如時間維度 年月日時 地域維度 省份,城市 年齡維度 老年,中年,青年 職稱維度 高,中,低。它定義了可以從哪些角度分析事實表。事實表 fact 存放著一些業務產生的資料,例如 商品訂購產生的訂單資訊,銀行的流水資訊,erp系統的辦公資訊。但它不僅存...

資料倉儲 資料集市和資料湖三者的區別

資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。資料倉儲算是優化的資料庫,用於分析來自事務系統和業務線應用程式的關係資料,事先定義資料結構和約束來優化sql查詢速度,其中結果通常用於操作報告和分析,資料經過etl,可以充...

資料倉儲到搭建資料集市

資料倉儲是一種關聯式資料庫模式,其中儲存了來自乙個或者多個源資料庫的歷史資料和元資料。資料倉儲的目的是便於將資料的報告和分析彙總到多個層次。或者更簡單點 是作為乙個存放企業各個領域的資料的單獨且有組織的庫。典型的資料倉儲有以下的一些特點 涉及多個主題域 有十分詳細的資訊 集合來自不同資料來源的資料 ...