Druid 乙個用於大資料實時處理的開源分布式系統

2021-07-07 09:03:59 字數 1097 閱讀 5869



druid是乙個用於大資料實時查詢和分析的高容錯、高效能開源分布式系統,旨在快速處理大規模的資料,並能夠實現快速查詢和分析。尤其是當發生**部署、機器故障以及其他產品系統遇到宕機等情況時,druid仍能夠保持100%正常執行。建立druid的最初意圖主要是為了解決查詢延遲問題,當時試圖使用hadoop來實現互動式查詢分析,但是很難滿足實時分析的需要。而druid提供了以互動方式訪問資料的能力,並權衡了查詢的靈活性和效能而採取了特殊的儲存格式。

druid功能介於powerdrill和dremel之間,它幾乎實現了dremel的所有功能,並且從powerdrill吸收一些有趣的資料格式。druid允許以類似dremel和powerdrill的方式進行單錶查詢,同時還增加了一些新特性,如為區域性巢狀資料結構提供列式儲存格式、為快速過濾做索引、實時攝取和查詢、高容錯的分布式體系架構等。從官方得知,druid的具有以下主要特徵:

druid應用最多的是類似於廣告分析創業公司metamarkets中的應用場景,如廣告分析、網際網路廣告系統監控以及網路監控等。當業務中出現以下情況時,druid是乙個很好的技術方案選擇:

乙個druid集群有各種型別的節點(node)組成,每個節點都可以很好的處理一些的事情,這些節點包括對非實時資料進行處理儲存和查詢的historical節點、實時攝取資料、監聽輸入資料流的realtime節、監控historical節點的coordinator節點、接收來自外部客戶端的查詢和將查詢**到realtime和historical節點的broker節點、負責索引服務的indexer節點。

查詢操作中資料流和各個節點的關係如下圖所示:

如下圖是druid集群的管理層架構,該圖展示了相關節點和集群管理所依賴的其他元件(如負責服務發現的zookeeper集群)的關係:

druid已基於apache license 2.0協議開源,**託管在github,其當前最新穩定版本是0.7.1.1。當前,druid已有63個**貢獻者和將近2000個關注。druid的主要貢獻者包括廣告分析創業公司metamarkets、電影流****netflix、yahoo等公司。druid官方還對druid同shark、vertica、cassandra、hadoop、spark、elasticsearch等在容錯能力、靈活性、查詢效能等方便進行了對比說明。

Druid 乙個用於大資料實時處理的開源分布式系統

druid是乙個用於大資料實時查詢和分析的高容錯 高效能開源分布式系統,旨在快速處理大規模的資料,並能夠實現快速查詢和分析。尤其是當發生 部署 機器故障以及其他產品系統遇到宕機等情況時,druid仍能夠保持100 正常執行。建立druid的最初意圖主要是為了解決查詢延遲問題,當時試圖使用hadoop...

Druid 乙個用於大資料實時處理的開源分布式系統

druid是乙個用於大資料實時查詢和分析的高容錯 高效能開源分布式系統,旨在快速處理大規模的資料,並能夠實現快速查詢和分析。尤其是當發生 部署 機器故障以及其他產品系統遇到宕機等情況時,druid仍能夠保持100 正常執行。建立druid的最初意圖主要是為了解決查詢延遲問題,當時試圖使用hadoop...

大資料分析druid(大資料實時統計分析資料儲存)

與某連線池同名,但完全是兩個東西。druid 俗名德魯伊 是乙個為在大資料集之上做實時統計分析而設計的開源資料儲存。這個系統集合了乙個面向列儲存的層,乙個分布式 shared nothing 共享 的架構,和乙個高階的索引結構,來達成在秒級以內對十億行級別的表進行任意的探索分析。下文都以德魯伊代表d...