阿里雲PB級實時數倉建設

2021-09-19 18:30:37 字數 3180 閱讀 7956

如今,資料和分析對於企業來說是不可或缺的。很多企業的資料工程師、資料分析師和開發人員都希望將資料倉儲遷移到雲上,以提高效能和降低成本。本文討論了實現實時資料倉儲的必要性和實時資料模型,介紹了基於analyticdb構建阿里雲實時資料倉儲解決方案的方法和優勢。

為什麼要構建資料倉儲,而不是直接在oltp資料庫上執行分析查詢?為了回答這個問題,我們先來看下資料倉儲與 oltp 資料庫之間的差別。資料倉儲主要是針對批量寫入和大量資料的讀取操作,而oltp資料庫是針對持續寫入操作以及大量的小規模讀取操作。通常,資料倉儲會因較高的資料吞吐量要求而使用非規範化模型,如星型模型和雪花模型。星型架構包含多個引用大量維度表的大型事實資料表。雪花型架構是星型架構的擴充套件,包含更加規範化的維度表。而oltp資料庫則使用高度規範化的模型,更適合高事務吞吐量的要求,對於複雜查詢的效能很難滿足使用者要求。

傳統的離線資料倉儲將業務資料集中進行儲存後,以固定的計算邏輯定時進行etl和其它建模後產出報表等應用。離線資料倉儲主要是構建t+1的離線資料,通過定時任務每天拉取增量資料,然後建立各個業務相關的主題維度資料,對外提供t+1的資料查詢介面。計算和資料的實時性均較差,業務人員無法根據自己的即時性需要獲取幾分鐘之前的實時資料。資料本身的價值隨著時間的流逝會逐步減弱,因此資料發生後必須盡快的達到使用者的手中,實時數倉的構建需求也應運而生。

實時資料倉儲是用於儲存從乙個或多個資料來源獲取到的資訊的**儲存庫。資料通常從事務系統和其他關聯式資料庫傳輸到資料倉儲中,而且一般包括結構化、半結構化和非結構化的資料。這些資料將會每小時或者每分鐘處理、轉換和提取。科學家、業務分析師和決策者會通過bi工具、sql客戶端或者電子**來進行資料探勘、資料分析、報表展示或即席查詢等操作。

幾年前阿里雲就意識到實時資料倉儲的必要性,2023年analyticdb肩負這阿里雲實時資料倉儲的使命上線公共雲。analyticdb是阿里雲上唯一經過核心業務和超大資料量驗證的實時資料倉儲,其穩定性、規模性和效能是不容置疑的。

analyticdb採用行列混存mpp技術,突破oltp和傳統資料倉儲技術壁壘,最大優勢是可以構建pb資料量下高效能和經濟實用的資料倉儲。全面相容mysql協議以及sql:2003 語法標準,使用者只需對現有業務進行少量更改,甚至不需要進行任何更改,即可把業務全部遷移到analyticdb上來。因此,它已成為當今企業構建資料倉儲和olap系統的理想選擇。

前面介紹說離線資料倉儲計算和資料的實時性均較差,業務人員無法根據自己的即時性需要獲取幾分鐘之前的實時資料。那麼,analyticdb同時具有:

可以讓業務人員在幾秒鐘甚至幾百毫秒的時間內獲取到包含最近幾分鐘內的資料計算結果,以最大的靈活度應對千變萬化的業務挑戰。

analyticdb不要求長期訂閱,也不需要提前支付費用。利用此定價方法,在出現相應的需求之前,使用者不必為規劃和購買資料倉儲容量而產生的資本費用以及由此帶來的複雜性而頭疼,根據購買的資源模型和數目收費。使用者可以根據需求從使用按量付費的小規模資料倉儲(每小時1.6元)開始,然後再逐步擴充套件到tb和pb級(每年每tb最低14125元)。

另外,在即將到來的analyticdb 3.0中使用者可以使用最高與配置儲存同等大小的備份儲存,而不需要額外支付費用,一起期待3.0的到來吧。

analyticdb可以進行複雜的自由計算,他摒棄了傳統資料庫索引加速方式,預設全索引方式,使用者全部精力關注在如何能夠提取資料並在多個維度上敏銳地觀察趨勢。由於analyticdb已針對快速join行優化,因此用他構建olap系統是非常合適的。

analyticdb提供了單庫pb級資料實時分析能力。以下是生產環境的真實資料:

資料倉儲建設無論採用哪種方式,資料收集、處理、分析和儲存都不可能放在乙個產品中實現,需要多個其他產品配合使用。下面列舉各個過程中常用的產品,

拋開效能和時效性考慮,多乙個產品就多一些出現問題的機率,如果各個產品處理問題低效,直接影響資料倉儲上線時間,影響企業未來。

前面我們介紹了analyticdb的一些功能,這些功能使analyticdb成為資料倉儲的理想之選。除了上述特徵外,還有乙個重要的原因是:analyticdb可以集資料收集、處理、分析和儲存於一體。鏈路簡單,業務聯調時間短,上線快。提高資料時效性的同時也節省了開發上線時間和運維時間,給企業帶來的紅利是非常明顯的。為了說明如何使用analyticdb設計資料倉儲工作流程,下面我們來看一看最常見的設計模式。

在資料收集階段,第一點需要考慮的是使用者可能具有不同型別的資料,如事務資料、日誌資料、流資料和物聯網 (iot) 資料。analyticdb針對上述每種資料提供了資料收集解決方案。另外一點要需要考慮的是抽取頻次,傳統離線資料倉儲會採用避開高峰期時間每天抽取一次,最快也只能做到小時級別的抽取。analyticdb可以做到高併發實時寫入,3s內即可查。

業務資料

日誌資料

物件儲存資料

本地資料

通過資料收集過程,使用者資料進入到analyticdb中了,已經獲得可能包含有價值資訊的資料。所謂資料處理就是把不需要的和不符合規範的資料進行處理,或者通過資料處理把小表組成大寬表。資料處理最好不要放在資料收集的環節進行,考慮到有時可能會查原始資料。

analyticdb提供多種資料處理方式:cte,查詢方式複製表(insert into......select from),create table as(analyticdb 3.0支援),create table like(analyticdb 3.0支援)等。如下舉例說明analyticdb資料處理的場景:

可以配合阿里雲上dataworks作為任務管理工具,可以進行實時資料倉儲的資料處理過程,詳細步驟。

analyticdb可以進行低成本資料儲存,公共雲上售賣的資源模型有兩種:

傳統資料倉儲一般使用oltp資料庫如mysql進行加速,一般將資料處理與oltp系統分離,使資料處理不會影響到 oltp工作負載。但隨著資料量的增長oltp資料庫會成為嚴重的系統瓶頸。通過analyticdb進行分析,當不能滿足效能和儲存要求時,可以隨時進行橫向和縱向擴充套件(擴容和公升配),變換過程中業務完全不受影響,不用避開高峰期。

我們發現資料倉儲正在發生戰略性的轉移,企業正在將其分析資料庫和解決方案從本地解決方案遷移到雲。由於資料的價值時效性,越來越多的企業都想在雲上尋找一款同時具有簡單性、高效能和高成本效益的實時資料倉儲。目前analyticdb正在進行15天免費使用活動,如果您有興趣進一步了解,可以提交免費申請,開啟您的實時大資料之旅。

把100PB資料遷移到阿里雲,需要幾步?

把大象關進冰箱,需要幾步?三步。第一步,開啟冰箱門 第二步,把大象放進冰箱 第三步,關上冰箱門 把100pb 115科技的資料遷移到阿里雲,需要幾步?同樣是三步。第一步,把資料拷入閃電立方 第二步,把閃電立方運送到阿里資料中心 第三步,把資料從閃電立方拷出來,齊活!說起來很輕鬆 可是,您知道100p...

阿里雲構建千萬級架構演變之路

2017 11 07 乙個好的架構是靠演變而來,而不是單純的靠設計。剛開始做架構設計,我們不可能全方位的考慮到架構的高效能 高擴充套件性 高安全等各方面的因素。隨著業務需求越來越多 業務訪問壓力越來越大,架構不斷的演變及進化,因而造就了乙個成熟穩定的大型架構。如 網 facebook等大型 的架構,...

阿里雲ECS全球啟用秒級計費

為進一步提公升彈性計算服務體驗,2017年9月29日,阿里雲宣布全球所有服務地域的ecs雲伺服器按量付費模式公升級為按秒計費。這一公升級同時適用於 入門級 與 企業級 ecs產品線。這是阿里雲在今年8月推出包周付費後再次增加付費模式。至此,阿里雲ecs雲伺服器的付費模式包含 按量付費 已公升級為按秒...