大資料概念大資料的技術生態比喻

的廚具可以處理所有情況，因此它會變的越來越複雜。

hbase：是乙個高可靠性、高效能、面向列、可伸縮的分布式儲存系統，利用hbase技術可在廉價pc server上搭建起大規模結構化資料集群。像facebook，都拿它做大型實時應用 facebook's new realtime analytics system: hbase to process 20 billion events per day

pig：yahoo開發的，並行地執行資料流處理的引擎，它包含了一種指令碼語言，稱為pig latin，用來描述這些資料流。pig latin本身提供了許多傳統的資料操作，同時允許使用者自己開發一些自定義函式用來讀取、處理和寫資料。在linkedin也是大量使用。

hive：facebook領導的乙個資料倉儲工具，可以將結構化的資料檔案對映為一張資料庫表，並提供完整的sql查詢功能，可以將sql語句轉換為mapreduce任務進行執行。其優點是學習成本低，可以通過類sql語句快速實現簡單的mapreduce統計。像一些data scientist 就可以直接查詢，不需要學習其他程式設計介面。

cascading/scalding：cascading是twitter收購的乙個公司技術，主要是提供資料管道的一些抽象介面，然後又推出了基於cascading的scala版本就叫scalding。coursera是用scalding作為mapreduce的程式設計介面放在amazon的emr執行。

zookeeper：乙個分布式的，開放原始碼的分布式應用程式協調服務，是google的chubby乙個開源的實現。

oozie：乙個基於工作流引擎的開源框架。由cloudera公司貢獻給apache的，它能夠提供對hadoop mapreduce和pig jobs的任務排程與協調。

azkaban: 跟上面很像，linkedin開源的面向hadoop的開源工作流系統，提供了類似於cron 的管理任務。

tez：hortonworks主推的優化mapreduce執行引擎，與mapreduce相比較，tez在效能方面更加出色。

至於spark，我在其他的帖子中有詳細闡述：與 hadoop 對比，如何看待 spark 技術？ - 董飛的回答

大資料概念大資料的技術生態比喻

大資料技術生態體系

大資料技術生態體系

大資料技術生態體系

大資料概念 大資料的技術生態比喻

大資料技術生態體系

大資料技術生態體系

大資料技術生態體系

相關推薦

大資料概念大資料的技術生態比喻