Druid 乙個用於大資料實時處理的開源分布式系統

druid是乙個用於大資料實時查詢和分析的高容錯、高效能開源分布式系統，旨在快速處理大規模的資料，並能夠實現快速查詢和分析。尤其是當發生**部署、機器故障以及其他產品系統遇到宕機等情況時，druid仍能夠保持100%正常執行。建立druid的最初意圖主要是為了解決查詢延遲問題，當時試圖使用hadoop來實現互動式查詢分析，但是很難滿足實時分析的需要。而druid提供了以互動方式訪問資料的能力，並權衡了查詢的靈活性和效能而採取了特殊的儲存格式。

druid功能介於powerdrill和dremel之間，它幾乎實現了dremel的所有功能，並且從powerdrill吸收一些有趣的資料格式。druid允許以類似dremel和powerdrill的方式進行單錶查詢，同時還增加了一些新特性，如為區域性巢狀資料結構提供列式儲存格式、為快速過濾做索引、實時攝取和查詢、高容錯的分布式體系架構等。從官方得知，druid的具有以下主要特徵：

druid應用最多的是類似於廣告分析創業公司metamarkets中的應用場景，如廣告分析、網際網路廣告系統監控以及網路監控等。當業務中出現以下情況時，druid是乙個很好的技術方案選擇：

乙個druid集群有各種型別的節點（node）組成，每個節點都可以很好的處理一些的事情，這些節點包括對非實時資料進行處理儲存和查詢的historical節點、實時攝取資料、監聽輸入資料流的realtime節、監控historical節點的coordinator節點、接收來自外部客戶端的查詢和將查詢**到realtime和historical節點的broker節點、負責索引服務的indexer節點。

查詢操作中資料流和各個節點的關係如下圖所示：

如下圖是druid集群的管理層架構，該圖展示了相關節點和集群管理所依賴的其他元件（如負責服務發現的zookeeper集群）的關係：

druid已基於apache license 2.0協議開源，**託管在github，其當前最新穩定版本是0.7.1.1。當前，druid已有63個**貢獻者和將近2000個關注。druid的主要貢獻者包括廣告分析創業公司metamarkets、電影流****netflix、yahoo等公司。druid官方還對druid同shark、vertica、cassandra、hadoop、spark、elasticsearch等在容錯能力、靈活性、查詢效能等方便進行了對比說明。

Druid 乙個用於大資料實時處理的開源分布式系統

Druid 乙個用於大資料實時處理的開源分布式系統

Druid 乙個用於大資料實時處理的開源分布式系統

大資料分析druid（大資料實時統計分析資料儲存）

相關推薦