混合雲儲存 大資料應用的上雲之道

2021-10-07 10:55:41 字數 1916 閱讀 8452

企業數位化轉型過程中,資料價值被顯著放大,大資料應用成為不少企業探索的重點。

從技術上看,大資料業務由於資料體量大,且資料量很多時候呈急速膨脹狀態;在進行大資料計算分析時,對資源的需求呈現浪湧式特徵,又偶有突發性,因此通過上雲充分發揮資源按需使用按需付費的優勢,成為了不少企業在探索大資料應用時的常見模式。

這其中,企業在綜合考量資料安全性、可擴充套件、可管理和成本效益等因素後,混合雲部署的方式就成為了企業的主流選擇。

企業資料中心自建大資料業務,一般會遇到擴容的問題,隨著大資料分析在業務價值挖掘上的作用愈加重要,新增及突發的分析任務越來越多,此時,趨於飽和使用率的硬體資源便會成為瓶頸,從提交預算申領裝置到新裝置加入分析集群通常需要較長時間(有時會超過乙個月),這樣會也導致大資料計算結果延期交付。隨著時間推移,大資料中儲存的資料越來越多,如何降低資料的儲存成本,在需要的時候又能快速分析。

大資料混合雲儲存將idc大資料和公有雲大資料連線為混合雲,通過存算分離(計算與儲存分離),實現計算彈性伸縮;通過資料全生命週期自動沉降實現儲存低成本。

存算分離,計算與儲存分離,計算基於標準hdfs協議訪問儲存,計算資源和儲存資源各自按需擴容;計算資源可以分鐘級按需建立及銷毀,資料儲存在cos(cloud object storage)「統一儲存層,集中儲存、統一管理。

存算分離,讓資料儲存在雲中物件儲存cos上,計算集群直接分析cos中的資料,計算資源專注於計算,按需實現彈性伸縮,按需建立及銷毀,不用維持冗餘裝置來儲存資料;通過計算與儲存分離,實現計算彈性伸縮,按需建立及銷毀,可以節約大資料20-30%的成本。

儲存資源cos(cloud object storage)海量、無容量上限、無需擴容、按需供給,高效、平滑接入大資料生態、按需使用付費、通過生命週期策略自動沉降極致降低成本。

cos中儲存型別分為標準儲存、低頻儲存和歸檔儲存,通過配置資料全生命週期策略實現自動沉降:經常訪問的資料放在標準儲存,較少訪問的資料放在低頻儲存,基本不訪問的資料放在歸檔儲存,以上三種儲存型別,**不同,例如歸檔儲存刊例價就不到標準儲存刊例價的1/3,資料自動沉降後成本節約20-30%。資料沉降歸檔後,能及時回熱,需要用的時候能及時被計算集群訪問。

雲上雲下的統一管理,一致使用體驗;在資料面雲上cos與idc中hdfs統一元資料管理,實現全量資料etl(抽取、轉換、裝載)。在技術面,雲上和雲下均採用大資料開源元件,接入大資料開源生態,保持一致使用體驗。

雲下與雲上的資料流動,這裡主要包括兩種資料流動。

其一、資料在idc與雲上cos間快速水平流動;使用者每天可往雲上cos灌入200tb+資料,基於cos海量併發設計,可進一步加粗上傳管道,加速資料上雲。資料下雲,一般是結算結果返回到使用者idc,這部分資料量比較小,是從海量沙子裡掏出的金子,不存在技術挑戰。

其二、資料在emr計算與cos儲存間快速垂直流動,在emr進行大資料計算時,需要在瞬間從cos中讀取大量資料到emr中進行計算,關鍵技術是cos的高效能,來滿足資料的快速讀寫。

某頭部遊戲直播公司,大資料體量大,很早就成立了近百人的專業大資料團隊,以支撐近百p規模的離線、實時流式資料的高效儲存計算及資料科學探索。

混合雲扛起雲儲存領軍大旗

本文講的是混合雲扛起雲儲存領軍大旗混合雲融合了公有雲和私有雲,被稱為近年來雲計算發展的方向。有說法 到2017年底的大型公司都將完成混合雲的部署。更有說法 圍繞公有雲的報道已淡淡消去,人們已把目標轉移到了混合雲上。為什麼混合雲近期的關注度如此之高呢?混合雲市場分析 根據有關資料顯示,大概占有一半百分...

阿里雲發布混合雲資料儲存和災備方案

摘要 12月7日,2017蘇州 雲棲大會上,阿里雲發布全新的混合雲資料儲存和災備方案,此次發布的內容包括最新推出的混合雲容災服務hdr和混合雲備份服務hbr,以及全面公升級的混合雲儲存陣列csa2000和csa3000。12月7日,2017蘇州 雲棲大會上,阿里雲發布全新的混合雲資料儲存和災備方案,...

阿里雲發布混合雲資料儲存和災備方案

摘要 12月7日,2017蘇州 雲棲大會上,阿里雲發布全新的混合雲資料儲存和災備方案,此次發布的內容包括最新推出的混合雲容災服務hdr和混合雲備份服務hbr,以及全面公升級的混合雲儲存陣列csa2000和csa3000。12月7日,2017蘇州 雲棲大會上,阿里雲發布全新的混合雲資料儲存和災備方案,...