辨析BI 資料倉儲 資料湖和資料中臺內涵及差異點

2021-10-10 10:43:10 字數 4109 閱讀 5422

資料倉儲

資料倉儲平台逐步從bi報表為主到分析為主、到**為主、再到操作智慧型為目標。

圖1.資料倉儲發展階段劃分

1.1資料倉儲基本定義

資料倉儲(data warehouse)是乙個面向主題的(subject oriented)、整合的(integrated)、相對穩定的(non-volatile)、反映歷史變化的(time variant)資料集合,用於支援管理決策和資訊的全域性共享。其主要功能是將組織透過資訊系統之聯機事務處理(oltp)經年累月所累積的大量資料,透過資料倉儲理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如聯機分析處理(olap)、資料探勘(data mining)之進行,並進而支援如決策支援系統(dss)、主管資訊系統(eis)之建立,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智慧型(bi)。[1]:引自全球資料倉儲之父 w.h.inmon。

圖2.資料倉儲邏輯架構

1.2資料倉儲系統作用和定位

資料倉儲系統的作用能實現跨業務條線、跨系統的資料整合,為管理分析和業務決策提供統一的資料支援。資料倉儲能夠從根本上幫助你把公司的運營資料轉化成為**值的可以獲取的資訊(或知識),並且在恰當的時候通過恰當的方式把恰當的資訊傳遞給恰當的人。

圖3.資料倉儲的作用

資料倉儲針對實時資料處理,非結構化資料處理能力較弱,以及在業務在預警**方面應用相對有限。

1.3資料倉儲能提供什麼

圖4.資料倉儲提供價值

1.4資料倉儲系統構成

資料倉儲系統除了包含分析產品本身之外,還包含資料整合、資料儲存、資料計算、門戶展現、平台管理等其它一系列的產品。

圖5.資料倉儲產品構成

圖6.資料倉儲產品構成

二資料湖

資料湖(data lake)是pentaho的cto james dixon提出來的(pentaho作為一家bi公司在理念上是挺先進的),是一種資料儲存理念——即在系統或儲存庫中以自然格式儲存資料的方法。

2.1目前,hadoop是最常用的部署資料湖的技術,所以很多人會覺得資料湖就是hadoop集群。資料湖是乙個概念,而hadoop是用於實現這個概念的技術。

圖7.資料湖的處理架構

圖8.資料湖示意圖

2.2資料湖能給企業帶來多種能力

資料湖能給企業帶來多種能力,例如,能實現資料的集中式管理,在此之上,企業能挖掘出很多之前所不具備的能力。另外,資料湖結合先進的資料科學與機器學習技術,能幫助企業構建更多優化後的運營模型,也能為企業提供其他能力,如**分析、推薦模型等,這些模型能刺激企業能力的後續增長。資料湖能從以下方面幫助到企業:

2.3資料倉儲與資料湖差異

表1.資料倉儲、資料湖和資料湖的區別如下:

資料倉儲

資料湖

主要處理歷史的、結構化的資料,而且這些資料必須與資料倉儲事先定義的模型吻合。

能處理所有型別的資料,如結構化資料,非結構化資料,半結構化資料等,資料的型別依賴於資料來源系統的原始資料格式。

處理結構化資料,將它們或者轉化為多維資料,或者轉換為報表,以滿足後續的高階報表及資料分析需求。

擁有足夠強的計算能力用於處理和分析所有型別的資料,分析後的資料會被儲存起來供使用者使用。

資料倉儲通常用於儲存和維護長期資料,因此資料可以按需訪問。

三資料中臺

3.1產生的背景

(1)傳統的資料倉儲不能滿足資料分析需求

企業在資料分析應用方面呈現「五大轉變」(從統計分析向**分析轉變、從單領域分析向跨領域轉變、從被動分析向主動分析轉變、從非實時向實時分析轉變、從結構化資料向多元化轉變),並且對統一的資料中臺平台訴求強烈,對資料中颱的運算能力、核心演算法、及資料全面性提出了更高的要求。

(2)資料中颱的處理架構發生了變化。

一是以hadoop、spark等分布式技術和元件為核心的「計算&儲存混搭」的資料處理架構,能夠支援批量和實時的資料載入以及靈活的業務需求。二是資料的預處理流程正在從傳統的etl結構向elt轉變。傳統的資料倉儲整合處理架構是etl結構,這是構建資料倉儲的重要一環,即使用者從資料來源抽取出所需的資料,經過資料清洗,將資料載入到資料倉儲中去。而大資料背景下的架構體系是elt結構,其根據上層的應用需求,隨時從資料中颱中抽取想要的原始資料進行建模分析。

3.2資料中臺建設是數位化轉型的關鍵支撐

資料中臺成為熱點,「中臺」這個概念,是相對於前台和後台而生,是前台和後台的鏈結點,將業務共同的工具和技術予以沉澱。資料中颱是指資料採集交換、共享融合、組織處理、建模分析、管理治理和服務應用於一體的綜合性資料能力平台,在大資料生態中處於承上啟下的功能,提供面向資料應用支撐的底座能力。

廣義上來給資料中臺乙個企業級的定義:「聚合和治理跨域資料,將資料抽象封裝成服務,提供給前台以業務價值的邏輯概念」。

圖9.資料中臺建設是數位化轉型的關鍵支撐

中臺戰略核心是資料服務的共享。中臺戰略並不是搭建乙個資料平台,但是中颱的大部分服務都是圍繞資料而生,資料中颱是圍繞向上層應用提供資料服務構建的,中臺戰略讓資料在資料平台和業務系統之間形成了乙個良性的閉環,也就是實現應用與資料之間解藕,並實現緊密互動。

3.3資料中臺定義及處理架構

資料中臺是指通過企業內外部多源異構的資料採集、治理、建模、分析,應用,使資料對內優化管理提高業務,對外可以資料合作價值釋放,成為企業資料資產管理中樞。資料中臺建立後,會形成資料api,為企業和客戶提供高效各種資料服務。

圖10.資料中臺架構圖

資料中臺整體技術架構上採用雲計算架構模式,將資料資源、計算資源、儲存資源充分雲化,並通過多租戶技術進行資源打包整合,並進行開放,為使用者提供「一站式」資料服務。

利用大資料技術,對海量資料進行統一採集、計算、儲存,並使用統一的資料規範進行管理,將企業內部所有資料統一處理形成標準化資料,挖掘出對企業最有價值的資料,構建企業資料資產庫,提供一致的、高可用大  資料服務。

資料中臺不是一套軟體,也不是乙個資訊系統,而是一系列資料元件的集合,企業基於自身的資訊化建設基礎、資料基礎以及業務特點對資料中颱的能力進行定義,基於能力定義利用資料元件搭建自己的資料中臺。

3.4資料中臺帶來價值

資料中颱對乙個企業的數位化轉型和可持續發展起著至關重要的作用。資料中颱為解耦而生,企業建設資料中颱的最大意義就是應用與資料解藕。這樣企業就可以不受限制地按需構建滿足業務需求的資料應用。

四傳統資料倉儲與資料中颱的差異點

圖11.資料中颱與傳統資料倉儲比較

表2.技術路線對比表

作為工業企業,一般採用混搭架構

表3.技術路線選型比較表

資料倉儲和資料湖的區別

在實際專案開發中,需要和資料倉儲以及資料湖那邊的開發同事進行對接,頭一次聽到這兩個名詞,自己也是一頭霧水。下面我就以我自己的理解,簡單的向大家介紹一下。資料庫 就是儲存當前的業務資料,集中儲存的是公司經常使用到的資料 儲存的是公司近50年的資料 資料倉儲 也是儲存的公司的各種業務資料,主要集中儲存的...

資料倉儲和資料倉儲分層

資料倉儲 data warehouse 可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。1 問題簡單化,將乙個複雜的問題分...

的資料湖 資料湖 VS 資料倉儲 VS 資料中臺

資料行業的名詞越來越多,其中,資料湖 資料倉儲和資料中颱是比較熱門的詞彙,他們都與資料有關,他們之間又有什麼區別呢?資料湖 資料倉儲和資料中臺,他們並沒有直接的關係,只是他們為業務產生價值的形式有不同的側重。作為乙個集中的儲存庫,可以在其中儲存任意規模的所有結構化和非結構化資料。在資料湖中,可以儲存...