Apache Hudi 雲資料湖解決方案

2022-02-02 03:25:48 字數 1515 閱讀 6210

開源apache hudi專案為uber等大型組織提供流處理能力,每天可處理資料湖上的數十億條記錄。

隨著世界各地的組織採用該技術,apache開源資料湖專案已經日漸成熟。

apache hudi(hadoop upserts deletes and incrementals)是乙個資料湖專案,可在與apache hadoop相容的雲儲存系統(包括amazon s3、aliyun oss)上進行流資料處理。

6月4日,hudi(發音為"hoodie")正式成為apache軟體**會(asf)的頂級專案,這是乙個里程碑,標誌著該專案已經達到了較高的**成熟度和開發人員社群的參與。asf是hadoop,spark,kafka和其他廣泛使用的資料庫和資料管理程式的地方。

hudi現在是被多個組織使用的開源專案,其中uber一直是堅定的使用者。

uber資料工程經理tanvi kothari表示,uber使用hudi每天處理超過150pb資料湖中的5,000億條記錄。

kothari運營著uber全球資料倉儲團隊,該團隊負責為uber的所有業務提供核心資料表。她指出,hudi支援uber對10,000多個表和數千個資料管道的讀寫進行增量處理。

kothari說:」hudi消除了處理大資料中的許多挑戰,它可以幫助您擴充套件etl [extract,transform,load]管道並提高資料保真度。」

大資料分析**商kyligence solutions將apache hudi作為產品的一部分,該公司在中國上海和加利福尼亞州聖何塞設有辦事處,kyligence的合夥人兼首席架構師史少鋒說道,他的公司使用許多apache開源專案,包括apache kylin,hadoop和spark技術,來幫助企業管理資料。

史少鋒表示,apache hudi為kyligence提供了一種直接在hadoop分布式檔案系統(hdfs)或amazon s3上管理更改資料集的方法。

史表示很高興看到hudi畢業成為apache的頂級專案的成就,他說,「hudi有乙個開放而熱情的社群,甚至將一系列hudi文章翻譯成中文,使中國使用者更容易了解該技術。」

asf apache hudi的共同創始人兼vp vinoth chandar說,hudi提供了使用資料流的功能,並使使用者能夠更新資料集。

chandar將hudi啟用的流處理視為一種資料處理方式,在這種方式中,資料湖管理員可以處理增量資料,然後可以使用該資料。

chandar說:「真正考慮hudi的乙個好方法是作為乙個資料儲存或資料庫,該資料庫在[aws] s3、[aliyun] oss中儲存的資料之上提供事務處理功能。」

chandar接著說,hudi成為頂級專案也反映了該項目的成熟度。但是,儘管hudi現在是apache的頂級專案,但這項工作尚未達到1.0版本,最新的更新是3月25日發布的0.5.2里程碑(畢業後又發布了0.5.3版本)。

hudi開發人員目前正在開發0.6.0版本,chandar表示該版本將於6月底發布。 chandar說,該版本將是乙個重要的里程碑,它將具有效能增強和改進的資料遷移功能,以幫助使用者將資料帶入hudi資料湖。他說:「我們的計畫是至少每個季度發布乙個主要版本,然後希望每個月在主要版本之上發布bugfix版本。」

阿里雲資料湖的型別轉換

data lake analytics會嘗試隱式轉換數值型別和字元型別值到正確的型別,但是不會在數值型別和字元型別之間自動轉換。例如,查詢返回的長整型資料不會自動轉變為你想要的varchar型別。轉換函式 cast value astype type顯式把value轉換到type型別。可用於把字元型...

資料湖概要分析

資料湖是一種不斷演進中 可擴充套件的大資料儲存 處理 分析的基礎設施 以資料為導向,實現任意 任意速度 任意規模 任意型別資料的全量獲取 全量儲存 多模式處理與全生命週期管理 並通過與各類外部異構資料來源的互動整合,支援各類企業級應用。用阿里的資料架構圖來說 簡單來說,資料湖的定義就是原始資料儲存區...

的資料湖 資料湖 VS 資料倉儲 VS 資料中臺

資料行業的名詞越來越多,其中,資料湖 資料倉儲和資料中颱是比較熱門的詞彙,他們都與資料有關,他們之間又有什麼區別呢?資料湖 資料倉儲和資料中臺,他們並沒有直接的關係,只是他們為業務產生價值的形式有不同的側重。作為乙個集中的儲存庫,可以在其中儲存任意規模的所有結構化和非結構化資料。在資料湖中,可以儲存...