的廚具可以處理所有情況,因此它會變的越來越複雜。
hbase:是乙個高可靠性、高效能、面向列、可伸縮的分布式儲存系統,利用hbase技術可在廉價pc server上搭建起大規模結構化資料集群。像facebook,都拿它做大型實時應用 facebook's new realtime analytics system: hbase to process 20 billion events per day
pig:yahoo開發的,並行地執行資料流處理的引擎,它包含了一種指令碼語言,稱為pig latin,用來描述這些資料流。pig latin本身提供了許多傳統的資料操作,同時允許使用者自己開發一些自定義函式用來讀取、處理和寫資料。在linkedin也是大量使用。
hive:facebook領導的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供完整的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。其優點是學習成本低,可以通過類sql語句快速實現簡單的mapreduce統計。像一些data scientist 就可以直接查詢,不需要學習其他程式設計介面。
cascading/scalding:cascading是twitter收購的乙個公司技術,主要是提供資料管道的一些抽象介面,然後又推出了基於cascading的scala版本就叫scalding。coursera是用scalding作為mapreduce的程式設計介面放在amazon的emr執行。
zookeeper:乙個分布式的,開放原始碼的分布式應用程式協調服務,是google的chubby乙個開源的實現。
oozie:乙個基於工作流引擎的開源框架。由cloudera公司貢獻給apache的,它能夠提供對hadoop mapreduce和pig jobs的任務排程與協調。
azkaban: 跟上面很像,linkedin開源的面向hadoop的開源工作流系統,提供了類似於cron 的管理任務。
tez:hortonworks主推的優化mapreduce執行引擎,與mapreduce相比較,tez在效能方面更加出色。
至於spark,我在其他的帖子中有詳細闡述:與 hadoop 對比,如何看待 spark 技術? - 董飛的回答
大資料技術生態體系
1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。2 flume flume是clo...
大資料技術生態體系
大資料技術生態體系如圖2 26所示。圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdf...
大資料技術生態體系
大資料技術生態體系結構如下 圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料...