Apache Hudi 雲資料湖解決方案

開源apache hudi專案為uber等大型組織提供流處理能力，每天可處理資料湖上的數十億條記錄。

隨著世界各地的組織採用該技術，apache開源資料湖專案已經日漸成熟。

apache hudi（hadoop upserts deletes and incrementals）是乙個資料湖專案，可在與apache hadoop相容的雲儲存系統（包括amazon s3、aliyun oss）上進行流資料處理。

6月4日，hudi（發音為"hoodie"）正式成為apache軟體**會（asf）的頂級專案，這是乙個里程碑，標誌著該專案已經達到了較高的**成熟度和開發人員社群的參與。asf是hadoop，spark，kafka和其他廣泛使用的資料庫和資料管理程式的地方。

hudi現在是被多個組織使用的開源專案，其中uber一直是堅定的使用者。

uber資料工程經理tanvi kothari表示，uber使用hudi每天處理超過150pb資料湖中的5,000億條記錄。

kothari運營著uber全球資料倉儲團隊，該團隊負責為uber的所有業務提供核心資料表。她指出，hudi支援uber對10,000多個表和數千個資料管道的讀寫進行增量處理。

kothari說：」hudi消除了處理大資料中的許多挑戰，它可以幫助您擴充套件etl [extract，transform，load]管道並提高資料保真度。」

大資料分析**商kyligence solutions將apache hudi作為產品的一部分，該公司在中國上海和加利福尼亞州聖何塞設有辦事處，kyligence的合夥人兼首席架構師史少鋒說道，他的公司使用許多apache開源專案，包括apache kylin，hadoop和spark技術，來幫助企業管理資料。

史少鋒表示，apache hudi為kyligence提供了一種直接在hadoop分布式檔案系統（hdfs）或amazon s3上管理更改資料集的方法。

史表示很高興看到hudi畢業成為apache的頂級專案的成就，他說，「hudi有乙個開放而熱情的社群，甚至將一系列hudi文章翻譯成中文，使中國使用者更容易了解該技術。」

asf apache hudi的共同創始人兼vp vinoth chandar說，hudi提供了使用資料流的功能，並使使用者能夠更新資料集。

chandar將hudi啟用的流處理視為一種資料處理方式，在這種方式中，資料湖管理員可以處理增量資料，然後可以使用該資料。

chandar說：「真正考慮hudi的乙個好方法是作為乙個資料儲存或資料庫，該資料庫在[aws] s3、[aliyun] oss中儲存的資料之上提供事務處理功能。」

chandar接著說，hudi成為頂級專案也反映了該項目的成熟度。但是，儘管hudi現在是apache的頂級專案，但這項工作尚未達到1.0版本，最新的更新是3月25日發布的0.5.2里程碑（畢業後又發布了0.5.3版本）。

hudi開發人員目前正在開發0.6.0版本，chandar表示該版本將於6月底發布。 chandar說，該版本將是乙個重要的里程碑，它將具有效能增強和改進的資料遷移功能，以幫助使用者將資料帶入hudi資料湖。他說：「我們的計畫是至少每個季度發布乙個主要版本，然後希望每個月在主要版本之上發布bugfix版本。」

Apache Hudi 雲資料湖解決方案

阿里雲資料湖的型別轉換

資料湖概要分析

的資料湖資料湖 VS 資料倉儲 VS 資料中臺

Apache Hudi 雲資料湖解決方案

阿里雲資料湖的型別轉換

資料湖概要分析

的資料湖 資料湖 VS 資料倉儲 VS 資料中臺

相關推薦

的資料湖資料湖 VS 資料倉儲 VS 資料中臺