Hadoop生態體系

2021-09-12 12:05:41 字數 1785 閱讀 4656

1.hadoop的優勢:

2.hdfs架構概述

3.yarn架構概述

4.mapreduce架構概述

mapreduce將計算過程分為兩個階段:map和reduce,如圖2-6所示。

1)map階段並行處理輸入資料

2)reduce階段對map結果進行彙總

5.大資料技術生態體系

圖中涉及的技術名詞解釋如下:

1)sqoop:sqoop(斯庫伯)是一款開源的工具,主要用於在hadoop、hive與傳統的資料庫(mysql)間進行資料的傳遞,可以將乙個關係型資料庫(例如 :mysql,oracle等)中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。

2)flume:flume(弗魯姆)是cloudera提供的乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統,flume支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力。

3)kafka:kafka是一種高吞吐量的分布式發布訂閱訊息系統,有如下特性:

(1)通過o(1)的磁碟資料結構提供訊息的持久化,這種結構對於即使數以tb的訊息儲存也能夠保持長時間的穩定性能。

(2)高吞吐量:即使是非常普通的硬體kafka也可以支援每秒數百萬的訊息。

(3)支援通過kafka伺服器和消費機集群來分割槽訊息。

(4)支援hadoop並行資料載入。

4)storm:storm用於「連續計算」,對資料流做連續查詢,在計算時就將結果以流的形式輸出給使用者。

5)spark:spark是當前最流行的開源大資料記憶體計算框架。可以基於hadoop上儲存的大資料進行計算。

6)oozie:oozie是乙個管理hdoop作業(job)的工作流程排程管理系統。

7)hbase:hbase是乙個分布式的、面向列的開源資料庫。hbase不同於一般的關聯式資料庫,它是乙個適合於非結構化資料儲存的資料庫。

8)hive:hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。其優點是學習成本低,可以通過類sql語句快速實現簡單的mapreduce統計,不必開發專門的mapreduce應用,十分適合資料倉儲的統計分析。

10)r語言:r是用於統計分析、繪圖的語言和操作環境。r是屬於gnu系統的乙個自由、免費、源**開放的軟體,它是乙個用於統計計算和統計製圖的優秀工具。

11)mahout:apache mahout(麥浩特)是個可擴充套件的機器學習和資料探勘庫。

12)zookeeper:zookeeper是google的chubby乙個開源的實現。它是乙個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、 分布式同步、組服務等。zookeeper的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。

Hadoop 生態體系

hadoop是乙個開源的大資料框架,是乙個分布式計算的解決方案。hadoop的兩個核心解決了資料儲存問題 hdfs分布式檔案系統 和分布式計算問題 mapre duce 舉例1 使用者想要獲取某個路徑的資料,資料存放在很多的機器上,作為使用者不用考慮在哪台機器上,hd fs自動搞定。舉例2 如果乙個...

Hadoop 生態認知

hdfs 不適合互動場景 大吞吐量 hbase key value store,適合儲存半結構化資料,例如 資料 對於同乙個key,value可以具有多個列column,每個列可以具有不同時間緯度下的值,也就是說可以拿到某個key 對應value隨時間變化的值 hbase適合大資料場景儲存,資料量要...

部落格二 Hadoop演進與Hadoop生態

q 了解對比hadoop不同版本的特性,可以用圖表的形式呈現。a 圖表 q hadoop生態的組成 每個元件的作用 元件之間的相互關係,以圖例加文字描述呈現。a 圖例 1 hdfs 分布式檔案系統 hadoop分布式檔案系統hdfs是針對谷歌分布式檔案系統的開源實現,它是hadoop兩大核心組成部分...