資料湖與數倉技術優勢對比

2022-09-18 07:12:22 字數 1230 閱讀 4827

第乙個維度是方**,資料湖其實是乙個檔案儲存系統,使用者可以往裡面放任何一種檔案或者資料,它的乙個典型特點是事後建模,它的方**是使用者先把資料放上來,然後再考慮如何使用,也叫做schemaonread。資料倉儲正好相反,它是事前建模的模式,當你在把資料推進資料倉儲的時候,要求先createtable/schema,這是方**上的不同。

第二維度儲存的形態上,資料湖儲存的是檔案,資料倉儲儲存的是表(具體表如何儲存對使用者不可見)。資料倉儲是面向結構化關係表達設計的,因此面向ai這種非結構化資料,存在很大挑戰,它幾乎不支援音檢視型別的資料。而資料湖可以儲存所有型別,更靈活更有優勢。

第三維度面向計算引擎,資料湖天然是一種更開放的架構,適配更容易,但是幾乎也很難做到非常好的端到端優化。舉個例子,當客戶把資料上傳到資料湖上,可能是乙個行存的log檔案格式,上層的分析引擎幾乎很難跟它做非常好的優化分析(因為非列存、缺乏統計資訊和索引的支援)。而資料倉儲因為是偏端到端的設計,很難做到開放,但是端到端的優化更容易。

第四個維度從成本層面看,資料湖非常容易上手,它就是個儲存系統,你只要把資料放上去就形成了乙個資料湖。但隨著資料量的增長,運維管理會越來越困難,所以有很多資料湖最終有可能變成資料沼澤(比如,大家也不知道這個資料屬於誰,該被誰來用,能不能刪掉,應該怎麼治理),這是資料湖面臨的乙個問題。

第五個維度,而資料倉儲在把資料上傳之前要事先建模,而且大多數資料倉儲建立之初要有乙個有關整體資料模型的頂層設計,所以資料倉儲的啟動的成本很高。但是這種很好的頂設規劃,會使資料倉儲在日後擴充套件時的運維和管理成本變得更低,使得它長線的成本優勢變得非常明顯。從這個層面看,資料倉儲的資料質量高,也容易管理和治理,資料湖相對難一些。

從上述五個對比維度去看資料湖和資料倉儲,這兩個體系可以說是硬幣的兩個面。現在很多廠商開始考慮怎麼在資料湖上應用更多資料倉儲技術,反過來資料倉儲廠商也希望用資料湖的技術使自己更開放,這兩個技術在互相學習和融合,最終催生了乙個新的技術熱點,也就是湖倉一體。

實際上湖倉一體有兩個流派,第乙個流派是以數倉這種方式誕生的,它是乙個左右派,左邊是乙個資料倉儲,右邊是乙個資料湖,中間以高速網路相連形成乙個反對式的聯動;第二個流派是從資料湖向數倉演進,整體架構是在資料湖上搭建資料倉儲。這兩個流派的代表分別是aws redshift/阿里雲maxcompute,以及databricks,目前這兩個流派都還在發展中。

雖然湖倉一體是目前的熱點,但它仍然是乙個新興方向,還有非常多未知的問題要解決。

大資料技術實戰 業務資料數倉搭建

6.8 業務資料數倉搭建 從使用者行為寬表中dws user action,根據統計日期分組,聚合,直接sum就可以了。6.10 需求二 轉化率 6.10.1 新增使用者佔日活躍使用者比率表 從日活躍數表 ads uv count 和 日新增裝置數表 ads new mid count 中取即可。6...

資料倉儲與數倉建模

資料倉儲,英文名為data warehouse,簡寫為dw或dwh。資料倉儲,是乙個面向主題的 整合的 隨時間變化的 但資訊本身相對穩定的資料集合,用於對管理決策過程的支援1。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及...

大資料平台與傳統數倉的區別

基於關聯式資料庫的傳統數倉 基本特點 資料來源 關聯式資料庫 如oracle db2 mysql等 資料倉儲和資料集市 關聯式資料庫或mpp 如teradata vertica greenplum 資料型別 結構化資料 資料規模 gb tb級 資料分析 用sql進行簡單的統計報表分析 資料規模巨大 ...