JindoTable資料湖優化與查詢加速

2021-10-09 16:42:14 字數 2089 閱讀 3883

近幾年,資料湖架構的概念逐漸興起,很多企業都在嘗試構建資料湖。相比較大資料平台,資料湖在資料治理方面提出了更高的要求。對於資料湖場景所提出的新需求,「傳統」的大資料工具在很多方面都面臨著新的挑戰。jindotable 正是專為解決資料湖管理結構化資料甚至是半結構化資料的痛點而設計的,包括資料治理功能和查詢加速功能。

資料湖需要儲存來自各種資料來源的資料。對於 hdfs 集群,小檔案問題讓很多使用者倍感煩惱。在儲存計算分離的資料湖中,小檔案同樣會產生很多問題:過多的檔案數會導致目錄list時間顯著變長,小檔案也會影響很多計算引擎的併發度。此外,由於物件儲存一般以物件為單位,小檔案也會導致請求數量的上公升,會明顯影響元資料操作的效能,更會增加企業需要支付的費用。而如果資料檔案過大,如果資料又使用了不可分割的壓縮格式,後續計算的併發度會過低,導致無法充分發揮集群的計算能力。因此,即使是資料湖架構中,對資料檔案進行治理和優化也是非常必要的。

基於資料湖所管理的元資料資訊,jindotable 為客戶提供了一鍵式的優化功能,使用者只要在資源較為空閒時觸發優化指令,jindotable 可以自動為使用者優化資料,規整檔案大小,進行適當的排序、預計算,生成適當的索引資訊和統計資訊,結合計算引擎的修改,可以為這些資料生成更加高效的執行計畫,大幅減少使用者查詢的執行時間。資料優化對使用者透明,優化前後不會出現讀取的資料不一致的情況。這也是資料湖的資料治理所不可或缺的功能。

jindotable 還有一項重磅功能,就是查詢加速功能。在數倉中,資料分析總是越快越好。尤其是 ad-hoc 場景,對查詢延遲非常敏感。現在「湖倉一體」的概念也很火,對於資料湖這種普遍使用儲存計算分離場景的架構,如何盡可能減少 io 開銷,對於縮短查詢時間是非常關鍵的。

之前介紹的 jindotable 資料優化功能,是在儲存端減少額外開銷,並且通過提前的計算,為執行時優化打好基礎。jindotable 的查詢加速功能則是在查詢執行時,通過把計算推向儲存,減少計算時整體的 io 壓力,同時利用儲存端空閒的計算資源提供高效的計算,縮短整體查詢時間。jindotable 的加速服務結合修改後的各種計算引擎,可以把盡可能多的運算元下推到快取端,並且利用高效的 native 計算能力過濾大量原始資料,再把資料高效地傳輸給計算引擎。這樣,計算引擎所需處理的資料大大減少,甚至一些計算也可以直接略過,後續的計算所需的時間自然也就大為減少。

資料湖所儲存的資料量通常增長迅速。對於傳統的 hadoop 集群,如果資料量急劇增長,所需的儲存資源也要相應增加,這樣會導致集群規模迅速擴大,計算資源也會變得過剩。拋開集群規模增長導致的其他問題不談,光是運營集群的成本問題就足夠讓人頭疼。好在公有雲平台提供了物件儲存的服務,我們可以按儲存的資料量來付費,這在節約成本的同時,使用者也不用擔心 hdfs 在集群資源和資料量快速增長情況下的穩定性問題。但資料量快速增長還是會等比例的增加整體開銷。

阿里雲的物件儲存服務 oss,為使用者提供了低頻儲存和歸檔儲存,對於訪問不是那麼頻繁的資料,如果能夠轉為低頻或歸檔模式來儲存,可以盡量節約成本。而一部分資料如果有頻繁的訪問需求,放在遠離計算資源的物件儲存上,又會導致計算時的 io 出現瓶頸。jindotable 對接資料湖中各種計算引擎,以表或分割槽為最小單位,統計資料的訪問頻次。根據使用者設定的規則,jindotable 可以告訴使用者哪些表或者分割槽的訪問頻次較高,讓使用者可以通過 jindotable 命令,借助 jindofs 提供的底層支援,把這些表或者分割槽對應的資料快取到計算集群內,加速查詢的執行。同時,對於訪問頻次較低的表或者分割槽,使用者也可以使用 jindotable 把對應的資料轉為低頻或者歸檔儲存型別,或是設定生命週期。在需要對歸檔資料操作的時候,可以直接用 jindotable 對歸檔資料進行解凍。jindotable 還為使用者提供了元資料管理,方便使用者檢視表或者分割槽當前的儲存狀態。jindotable 讓使用者能盡可能高效地管理自己的資料,節約成本的同時,不犧牲計算效能。

對於企業來說,資料湖為各種**的資料提供了整合的可能性。背靠豐富的雲產品體系,資料湖架構可以幫助客戶進一步發掘資料價值,實現企業願景。jindotable 在資料湖解決方案中,為使用者提供資料治理和查詢加速的增值功能,進一步降低使用者資料入湖的門檻,幫助使用者在更低的成本下,實現更高的資料價值。

資料湖概要分析

資料湖是一種不斷演進中 可擴充套件的大資料儲存 處理 分析的基礎設施 以資料為導向,實現任意 任意速度 任意規模 任意型別資料的全量獲取 全量儲存 多模式處理與全生命週期管理 並通過與各類外部異構資料來源的互動整合,支援各類企業級應用。用阿里的資料架構圖來說 簡單來說,資料湖的定義就是原始資料儲存區...

的資料湖 資料湖 VS 資料倉儲 VS 資料中臺

資料行業的名詞越來越多,其中,資料湖 資料倉儲和資料中颱是比較熱門的詞彙,他們都與資料有關,他們之間又有什麼區別呢?資料湖 資料倉儲和資料中臺,他們並沒有直接的關係,只是他們為業務產生價值的形式有不同的側重。作為乙個集中的儲存庫,可以在其中儲存任意規模的所有結構化和非結構化資料。在資料湖中,可以儲存...

資料湖和資料中臺

中臺概念的鼻祖 阿里巴巴的資料產品部總經理朋新宇表示 資料中颱是資料 技術 產品 組織的組合,是企業開展新型運營的乙個中樞系統。具象的說,它是一套解決方案,抽象的理解,它是一種新的公司運營理念 數瀾科技cdo付登坡表示 資料中颱是讓資料用起來持續的一套機制,經過業務資料化 資料資產化 資產服務化,並...