阿里巴巴大資料實踐筆記 第14章 儲存和成本管理

2022-08-24 18:30:11 字數 3951 閱讀 9392

儲存管理追求目標:有效降低儲存資源消耗,節省儲存成本。用最少儲存成本滿足最大化業務需求,使資料價值最大化。

1.生命週期管理

資料的生命週期管理是儲存管理的一項重要手段。 通過生命週期管理矩陣可以保證儲存最大化利用。

1.1生命週期管理策略

(1)刪除策略

週期性刪除:所儲存的資料都有一定的有效期,可以週期性刪除 x 天前的資料。 

(2)保留策略

永久保留:重要且不可恢復的底層資料和應用資料需要永久保留。 可採用如下方式儲存:

a.極限儲存:極限儲存可以超高壓縮重複映象資料。缺點是對資料質量要求非常高,配置與維護成本比較高,乙個分割槽有超過 5gb 的映象資料(如商品維表、使用者維表)就使用極限儲存。

b.冷資料儲存:重要且不可恢復的、占用儲存空間大於lootb,且訪問頻次較低的資料進行冷備,例如

3年以上的日誌資料。

c.增量表merge全量表:merge全量表只儲存當前最新狀態,如賬戶餘額表。使用每日增量去merge更新全量表狀態。

1.2通用生命週期管理矩陣適合大資料生命週期管理的規範,主要通過對歷史資料的等級劃分與對錶型別的劃分生成相應的生命週期管理矩陣。 

(1)歷史資料劃分為 p0、pl、p2、p3 四個等級

p0:不可恢復,非常重要主題域和應用資料。如交易、日誌表。

p1:不可恢復,重要業務和應用資料。如業務產品資料。

p2:可再恢復,重要業務和應用資料。如etl中間過程資料。

p3:可再恢復,不重要業務和應用資料。如一些報表。

(2)表型別劃分

事件型流水表(增量表):指資料無重複或者無主鍵資料,如日 志。

事件型映象表(增量表):指業務過程性資料,有主鍵,但是對於同樣主鍵的屬性會發生緩慢變化,如交易、訂單狀態與時間會根據業務發生變更。

維表:維表包括維度與維度屬性資料,如使用者表、商品表。

merge 全量表:包括業務過程性資料或者維表資料。由於資料本身有新增的或者發生狀態變更,對於同樣主鍵的資料可能會保留多份,因此可以對這些資料根據主鍵進行 merge 操作,主鍵對應的屬性只會保留最新狀態 ,歷史狀態保留在前一天分割槽中。例如,使用者表、交易表等。

etl 臨時表:etl 臨時表是指 etl 處理過程中產生的臨時表資料,一般不建議保留,最多 7 天。

tt 臨時資料:tt 拉取的資料和 dbsync 產生的臨時資料最終會流轉到 ods 層,ods 層資料作為原始資料保留下來,從而使得 tt&dbsync 上游資料成為臨時資料。這類資料不建議保留很長時間,生命週期預設設定為 93天 ,可以根據實際情況適當減少保留天數。

普通全量表:很多小業務資料或者產品資料, bi 一般是直接全量拉取 ,這種方式效率快,對儲存壓力也不是很大,而且表保留很長時間,可以根據歷史資料等級確定保留策略。 

2.儲存治理項優化

建立儲存治理項優化閉環四個環節:現狀分析(形成儲存治理優化項)、 問題診斷(形成治理項)、管理優化(治理項推送和優化)、效果反饋(**優化儲存效果)。通過這個閉環,可以有效地推進資料儲存的優化,降低儲存管理的成本。 

2.1儲存治理優化項

(1)未管理的表

(2) 空表 

(3)最近 62 天未訪問表、大於100g且無訪問表

(4)資料無更新無任務表 、資料無更新有任務表

(5)長週期表

2.2資料壓縮優化方法

(1)問題背景:

分布式檔案系統中,預設通常會將資料儲存3份,這就需要儲存 ltb 的邏輯資料, 實際上會占用3tb的物理空間。

(2)解決方案:

maxcompute提供的archive壓縮方法,資料儲存為 raid file(6,3)的格式檔案,即 6 份資料+3 份校驗塊的方式 ,邏輯、物理儲存比由1:3降到1:1.5,省一半空間。

(3)適用場合:

archive 壓縮方法應用在冷備資料與日誌資料的壓縮儲存上。

(4)壓縮代價:

如果某個資料塊出現了損壞或者某台機器著機損壞了,恢復資料塊的時間將要比原來的方式更長,讀的效能會有一定的損失。 

2.3資料重分布優化方法

(1)列式儲存

資料表(堆,b-tree)以行儲存模式儲存資料,而列儲存索引以列儲存模式儲存資料。行儲存和列儲存的示例圖:

(2)避免列熱點

maxcompute 中主要採用基於列儲存的方式,由於每個表的資料分布不同,插人資料的順序不一樣,會導致壓縮效果有很大的差異。

因此通過修改表的資料重分布,避免列熱點,將會節省一定的儲存空間。目前我們主要通過修改 distribute by 和 sort by 欄位的方法進行資料重分布。

資料重分布效果的波動比較大,這主要眼資料表中宇段的重複值、字段本身的大小、其他宇段的具體分布有一定 的關係, 一般我們會篩選出重分布效果高於 15%的表進行優化處理。

3.資料資產成本管理

資料資產的成本管理分為資料成本計

量和資料使用計費

兩個步驟。

3.1資料成本計量

資料成本定義為儲存成本、計算成本和掃瞄成本三個部分。 通過成本計量,可以比較合理地評估出資料加工鏈路中的成本 ,從成本的角度反映出在資料加工鏈路中是否存在加工複雜、鏈路過長、依賴不合理等問題,間接輔助資料模型優化,提公升資料整合效率。

(1)儲存成本是為了計量資料表消耗的儲存資

源(2)計算成本是為了計量資料計算過程中的 c

pu 消耗

(3)引人掃瞄成本的概念,可以避免僅僅將表自身硬體資源的消耗作為資料表的成本,還應引入依賴任務的成本。(a依賴b,b依賴c,c依賴d;c的資料成本應含a和b的成本)。

3.2資料使用計費

資料使用付費定義為儲存付費、計算付費和掃瞄付費。

通過資料使用計費,可以規範下游使用者的資料使用方法,提公升資料使用效率,從而為業務提供優質的資料服務。

4.擴充套件知識:

maxcompute作為阿里巴巴計算力的核心引擎,承載著阿里集團99%的資料儲存和95%的計算,是阿里集團名副其實的航母級計算引擎。在2023年的雙11的技術大考中,maxcompute雙11當天資料處理峰值超過320pb,百萬級排程作業,不斷重新整理極限。

參考文件:

承載阿里99%的資料儲存和95%的計算——maxcompute

為什麼列儲存能大幅提高查詢效能

《大資料之路 阿里巴巴大資料實踐》筆記

阿里巴巴大資料系統體系主要分為,資料採集 資料計算 資料服務和資料應用四大層次。瀏覽器的頁面日誌採集 h5裝置標識 日誌傳輸資料同步基礎 不過濾刪除流水,下游邏輯刪除 過濾最後一條刪除流水,比如存在手工批量刪除或者備份刪除,則資料還是有效的不應當置為無效 過濾刪除流水和之前的流水 阿里資料倉儲的同步...

《大資料之路 阿里巴巴大資料實踐》讀書筆記

ps 這本書主講阿里的大資料體系架構方案,從底層到高層闡述,目前對我來說此書的難度較大,不是很懂,大部分為對原書的引用歸納,我會給出相應的大牛的關於此書的讀書筆記的傳送門供參考。以下為大牛關於本書的讀書筆記供參考 讀書筆記傳送門 整本書分為四篇幅,共分16個章節分別闡述阿里巴巴在大資料的挑戰下的各個...

大資料之路 阿里巴巴大資料實踐 資料同步要點

使用者建立資料同步任務,並提交該同步任務。根據系統提前獲知及設定的資料,估算該同步任務需要同步的資料量 平均同步速度 首輪執行期望的執行緒數 需要同步的匯流排程數。根據需要同步的匯流排程數將待同步的資料拆分成相 等數量的資料塊,乙個執行緒處理乙個資料塊,並將該任務對應的所有執行緒提交至同步控制器。同...