大資料技術生態體系元件概述

2021-09-12 11:16:30 字數 1648 閱讀 9846

大資料架構如下圖所示:

圖中涉及的技術名詞解釋如下:

1)sqoop:sqoop是一款開源的工具,主要用於在hadoop(hive)與傳統的資料庫(mysql)間進行資料的傳遞,可以將乙個關係型資料庫(例如 : mysql ,oracle 等)中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。

2)flume:flume是cloudera提供的乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統,flume支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力。

3)kafka:kafka是一種高吞吐量的分布式發布訂閱訊息系統,有如下特性:

(1)通過o(1)的磁碟資料結構提供訊息的持久化,這種結構對於即使數以tb的訊息儲存也能夠保持長時間的穩定性能。

(2)高吞吐量:即使是非常普通的硬體kafka也可以支援每秒數百萬的訊息

(3)支援通過kafka伺服器和消費機集群來分割槽訊息。

(4)支援hadoop並行資料載入。

4)storm:storm為分布式實時計算提供了一組通用原語,可被用於「流處理」之中,實時處理訊息並更新資料庫。這是管理佇列及工作者集群的另一種方式。 storm也可被用於「連續計算」(continuous computation),對資料流做連續查詢,在計算時就將結果以流的形式輸出給使用者。

5)spark:spark是當前最流行的開源大資料記憶體計算框架。可以基於hadoop上儲存的大資料進行計算。

6)oozie:oozie是乙個管理hdoop作業(job)的工作流程排程管理系統。oozie協調作業就是通過時間(頻率)和有效資料觸發當前的oozie工作流程。

7)hbase:hbase是乙個分布式的、面向列的開源資料庫。hbase不同於一般的關聯式資料庫,它是乙個適合於非結構化資料儲存的資料庫。

8)hive:hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。 其優點是學習成本低,可以通過類sql語句快速實現簡單的mapreduce統計,不必開發專門的mapreduce應用,十分適合資料倉儲的統計分析。

10)r語言:r是用於統計分析、繪圖的語言和操作環境。r是屬於gnu系統的乙個自由、免費、源**開放的軟體,它是乙個用於統計計算和統計製圖的優秀工具。

11)mahout:

apache mahout是個可擴充套件的機器學習和資料探勘庫,當前mahout支援主要的4個用例:

推薦挖掘:蒐集使用者動作並以此給使用者推薦可能喜歡的事物。

聚集:收集檔案並進行相關檔案分組。

分類:從現有的分類文件中學習,尋找文件中的相似特徵,並為無標籤的文件進行正確的歸類。

頻繁項集挖掘:將一組項分組,並識別哪些個別項會經常一起出現。

12)zookeeper:zookeeper是google的chubby乙個開源的實現。它是乙個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、 分布式同步、組服務等。zookeeper的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。

有時間再詳細闡述各元件資訊。。。

大資料技術生態體系

1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。2 flume flume是clo...

大資料技術生態體系

大資料技術生態體系如圖2 26所示。圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdf...

大資料技術生態體系

大資料技術生態體系結構如下 圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料...