大資料概念 大資料的技術生態比喻

2021-08-08 06:30:36 字數 1176 閱讀 9199

的廚具可以處理所有情況,因此它會變的越來越複雜。

hbase:是乙個高可靠性、高效能、面向列、可伸縮的分布式儲存系統,利用hbase技術可在廉價pc server上搭建起大規模結構化資料集群。像facebook,都拿它做大型實時應用 facebook's new realtime analytics system: hbase to process 20 billion events per day

pig:yahoo開發的,並行地執行資料流處理的引擎,它包含了一種指令碼語言,稱為pig latin,用來描述這些資料流。pig latin本身提供了許多傳統的資料操作,同時允許使用者自己開發一些自定義函式用來讀取、處理和寫資料。在linkedin也是大量使用。

hive:facebook領導的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供完整的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。其優點是學習成本低,可以通過類sql語句快速實現簡單的mapreduce統計。像一些data scientist 就可以直接查詢,不需要學習其他程式設計介面。

cascading/scalding:cascading是twitter收購的乙個公司技術,主要是提供資料管道的一些抽象介面,然後又推出了基於cascading的scala版本就叫scalding。coursera是用scalding作為mapreduce的程式設計介面放在amazon的emr執行。

zookeeper:乙個分布式的,開放原始碼的分布式應用程式協調服務,是google的chubby乙個開源的實現。

oozie:乙個基於工作流引擎的開源框架。由cloudera公司貢獻給apache的,它能夠提供對hadoop mapreduce和pig jobs的任務排程與協調。

azkaban: 跟上面很像,linkedin開源的面向hadoop的開源工作流系統,提供了類似於cron 的管理任務。

tez:hortonworks主推的優化mapreduce執行引擎,與mapreduce相比較,tez在效能方面更加出色。

至於spark,我在其他的帖子中有詳細闡述:與 hadoop 對比,如何看待 spark 技術? - 董飛的回答

大資料技術生態體系

1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。2 flume flume是clo...

大資料技術生態體系

大資料技術生態體系如圖2 26所示。圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdf...

大資料技術生態體系

大資料技術生態體系結構如下 圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料...