資料湖和資料倉儲的區別是什麼?

2021-09-27 10:57:25 字數 956 閱讀 2256

我們都知道,進行資料分析工作的時候會用到很多的工具,比如說資料湖和資料倉儲,不過這兩者之間的差異和區別,可能會讓人困惑。那麼大家知道不知道資料湖和資料倉儲的區別是什麼呢?下面我們就給大家介紹一下資料湖和資料庫的相關知識。

那麼什麼是資料湖呢?其實資料湖就是乙個集中儲存資料庫,用於儲存所有結構化和非結構化資料。資料湖可用其原生格式儲存任何型別的資料,這是沒有大小限制。資料湖的開發主要是為了處理大資料量,擅長處理非結構化資料。 我們通常會將所有資料移動到資料湖中不進行轉換。資料湖中的每個資料元素都會分配乙個唯一的識別符號,並對其進行標記,以後可通過查詢找到該元素。這樣做技術能夠方便我們更好的儲存資料。

那麼什麼是資料倉儲呢?資料倉儲是位於多個資料庫上的大容量儲存庫。它的作用是儲存大量的結構化資料,並能進行頻繁和可重複的分析。通常情況下,資料倉儲用於匯集來自各種結構化源的資料以進行分析,通常用於商業分析目的。一些資料倉儲也可以處理非結構化資料,這是十分常用的工具。

那麼資料湖和資料倉儲之間的主要差異是什麼呢?在儲存方面上,資料湖中資料為非結構化的,所有資料都保持原始形式。儲存所有資料,並且僅在分析時再進行轉換。資料倉儲就是資料通常從事務系統中提取。在將資料載入到資料倉儲之前,會對資料進行清理與轉換。在資料抓取中資料湖就是捕獲半結構化和非結構化資料。而資料倉儲則是捕獲結構化資料並將其按模式組織。資料湖的目的就是資料湖非常適合深入分析的非結構化資料。資料科學家可能會用具有**建模和統計分析等功能的高階分析工具。而資料倉儲就是資料倉儲非常適用於月度報告等操作用途,因為它具有高度結構化。在架構中資料湖通常,在儲存資料之後定義架構。使用較少的初始工作並提供更大的靈活性。在資料倉儲中儲存資料之前定義架構。這需要你清理和規範化資料,這意味著架構的靈活性要低不少。

其實資料倉儲和資料湖是我們都需要的地方,資料倉儲非常適用於業務實踐中常見的可重複報告。當我們執行不太直接的分析時,資料湖就很有用。

資料倉儲和資料湖的區別

在實際專案開發中,需要和資料倉儲以及資料湖那邊的開發同事進行對接,頭一次聽到這兩個名詞,自己也是一頭霧水。下面我就以我自己的理解,簡單的向大家介紹一下。資料庫 就是儲存當前的業務資料,集中儲存的是公司經常使用到的資料 儲存的是公司近50年的資料 資料倉儲 也是儲存的公司的各種業務資料,主要集中儲存的...

資料倉儲 資料集市和資料湖三者的區別

資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。資料倉儲算是優化的資料庫,用於分析來自事務系統和業務線應用程式的關係資料,事先定義資料結構和約束來優化sql查詢速度,其中結果通常用於操作報告和分析,資料經過etl,可以充...

資料倉儲是什麼

資料庫是最常聽到的名詞之一了,但是當提到資料倉儲的時候,就會疑問,資料倉儲是資料庫嗎?如果不是,資料倉儲是什麼,用來幹什麼的呢?平時遇到這個問題一般還真是不好簡單明瞭的回答,因為也的確不是一兩句話說的清的。那麼資料倉儲到底是什麼呢,跟資料庫有什麼區別呢?資料倉儲是什麼呢?資料倉儲是面向主題的 整合的...