關於目前某遊戲直播平台數倉建設規劃的思考2

2021-09-11 03:49:28 字數 1707 閱讀 8255

阿里雲e-mapreduce,主要啟用hive工具作為數倉的載體,熱資料儲存在hdfs上,冷資料及規模資料儲存在阿里雲oss上。

etl採用python編碼及封裝hql、sqoop、datax,最後由airflow統一進行排程。

結合傳統行業及移動網際網路行業的不同特點,及大資料平台下數倉建設的實際,分三層進行數倉的構建,分別是運算元據儲存ods層、資料倉儲層dwh、集市資料層dm。

1、ods

在這裡,dwh資料分兩部分,一部分是貼正規化的整合資料;一部分是細粒度維度指標資料。這也是與傳統資料倉儲的不同所在,下面具體說明。

dwh按主題進行正規化和維度綜合建模,劃分的主題大致有使用者主題、主播主題、支付主題等。貼正規化的整合資料,各個主題以三正規化為基準同時又有必要冗餘的準則進行資料建模。資料的整合大部分是橫向整合和少部分的豎向整合;資料的粒度為原始粒度,不做彙**計;資料表的格式主要由「主鍵+屬性+擴充套件屬性+指標(很多沒有)」這種形式構成。在資料的整合上,與傳統行業如銀行、**、電信等又有所區別,不會做過深度的、嚴格標準的整合,會以使用方便、整合快速為目的,以適應網際網路初創公司當前發展階段的需要。貼正規化的整合資料主要是為應對資料明細查詢的需要,使查詢更加方便快捷,並不能為維度匯**計提供必需的支援。

細粒度維度指標資料,各個主題下按維度的方式進行資料建模,日期維的粒度最高為天,根據情況個別需要到小時。這些資料一部分**於ods裡的資料庫表資料,一部分來自於ods的日誌資料;需要對他們進行彙總和計算。這些維度事實表,大多為日期快照事實表,有一小部分的事務事實表,絕不會存在累積快照事實表;它們是dm層高度彙總維度事實表的基礎。

另外,在上述貼正規化的整合資料和細粒度維度指標資料之外,還存在一類**表或維度表,它們是事實表維度及正規化表列舉**的說明。它們進行統一命名和規範,服務於dwh層的兩類表及dm層的高度彙總事實表。

命名方式:「主題名」_「inm/kim」 _「業務含義」;「cm」_「維表**業務含義」。

這一層的作用主要是,資料整合,基礎維度表建表;為明細資料查詢和dm層的集市彙總表做準備。

3、dm

dm層是資料集市層,資料主要**於dwh的細粒度維度指標資料,並對其進行更高粒度的彙總。dm集市資料按各個應用主題進行存放和管理,是下游報表資料的直接取數依據。這一層的資料,不針對具體的某一張報表,而是針對某一類報表進行資料維度建模。在這一層之後,資料根據具體報表需求,經過彙總計算,傳輸到儲存在關係型資料庫(mysql)的報表資料層。

命名方式:「應用主題」 _「業務含義」。應用主題有:運營、市場、boss等。

這一層的作用是,將dwh中的細粒度維度指標資料進行高粒度彙總,為具體的報表應用提供基礎資料。

4、資料層的其他方面

除以上提到的數倉的主要三層架構之外,可能還會有乙個專門儲存中間臨時資料的區域,我們可以以「tmp」命名庫;還會有乙個儲存在關聯式資料庫的報表資料層ads,專門針對具體報表的結果級及準結果級資料進行存放。報表展示的大部分都是dm集市層星型模型的不同層級的彙總資料,可能也會有一些極少部分的明細資料展示查詢需求。

1、資料入倉的順序,優先安排成熟的核心的業務,周邊的試驗性的業務資料作為次要入倉物件。

2、關於資料的整合,不嚴格按照bill inmon的企業資訊工廠cif理論,在強規範性與時效性方面做一些取捨,以適應移動網際網路行業的特殊需要。

3、維度資料低維部分跟整合資料一樣儲存在dwh層,高維資料儲存在dm集市層;這是與其他傳統資料倉儲的乙個明顯不同。

關於目前某遊戲直播平台數倉建設規劃的思考3

dwh層初始的想法是分主題後再按正規化及維度進行建模,但今天跟乙個同行 大搜車 聊到他們在這一層的做法是 先做基於明細級別的多維度寬表,這個寬表包含事務主鍵 維度 指標以及對應的屬性字段資料,然後再進行按天的資料粒度彙總。現在回想起在蘇寧的數倉做法,及另一前同事在天源迪科的數倉建模描述,也是大致按這...

直播平台搭建中關於直播推流的三種常見協議

直播行業經過爆發式增長後 荷爾蒙經濟 逐漸減退,如今的直播行業商業模式已經趨於成熟,並開始進入發展的新階段。直播平台搭建專案也早已成為熱門開發專案,但是在進行專案開發之前,關於直播的推拉流也是需要進行了解的。而推流是直播的第一步,所以今天給大家簡單分享一下推流中都有哪些推送協議和他們的現狀及優缺點。...

遊戲直播平台鬥魚獲新一輪融資 騰訊獨家40億元投資

新浪科技訊3 月 8 日上午訊息,據雷帝觸網爆料,遊戲直播平台鬥魚獲騰訊 40 億元投資,與騰訊深度戰略繫結。鬥魚方面對外界傳聞不予評論。這也是此前獲得騰訊兩輪融資後,鬥魚再獲得騰訊融資。資料顯示,鬥魚直播最新一輪的d輪融資於 2017 年上半年完成,招銀國際領投,南山資本通過元禾母 跟投,也藉此引...