1 大資料概述作業

2022-09-23 12:27:05 字數 1800 閱讀 5291

一.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係,以圖呈現並加以文字描述。

hadoop生態系統元件有hdfs、mapreduce、zoopker、hbase、hive、pig、mahout、sqoop、flume、spark、yarn等功能元件。

1、hdfs是乙個分布式檔案系統,為海量的資料提供了儲存。hdfs有著高容錯性的特點,並且設計用來部署在低廉價的的硬體上,提供了高吞吐量來訪問應用程式的資料。因此對於超大資料集的應用程式而言,選擇hdfs作為底層資料儲存是較好的選擇。

2、mapreduce是一種程式設計模型,為海量的資料提供了計算。它主要用於大規模資料集的並行運算。

3、 zookeeper是高效和可靠的協同工作系統,提供分布式鎖之類的基本服務,用於構建分布式應用,減輕分布式應用程式所承擔的協調任務。

4.、hbase是面向列的針對結構化資料的可伸縮、高可靠、高效能、分布式和面向列的動態模式資料庫。它提供了對大規模資料的隨機、實時讀寫訪問,同時,hbase中儲存的資料可以使用mapreduce來處理,它將資料儲存和平行計算完美地結合在一起。

5、hive是—個基於hadoop的資料倉儲工具,可以用於對hadoop檔案中的資料集進行資料整理、特殊查詢和分析儲存。

6、pig是一種資料流語言和執行環境,它簡化了hadoop常見的工作任務。適合於使用hadoop和mapreduce平台來查詢大型半結構化資料集。

7、mahout提供一些可擴充套件的機器學習領域經典演算法的實現。

8、sqoop主要用於在hadoop和傳統資料庫進行資料互導。

9、flume能夠將不同資料來源的海量日誌資料進行高效收集、匯聚、移動,最後儲存到乙個中心化資料儲存系統中,它適應各種方式日誌收集並支援failover和負載均衡。

10、spark提供了乙個更快、更通用的資料處理平台,為海量資料處理的記憶體計算引擎。

11、yarn 是負責集群資源排程管理的元件。

二、對比hadoop與spark的優缺點。

1、spark 是把中間資料放到記憶體中,迭代運算效率高。而mapreduce 中計算結果需要落地,儲存到磁碟上,這樣勢必會影響整體速度。而 spark 支援 dag 圖的分布式平行計算的程式設計框架,減少了迭代過程中資料的落地,提高了處理效率。

2、spark 容錯性高。spark 引進了彈性分布式資料集 rdd 的抽象,它是分布在一組節點中的唯讀物件集合,這些集合是彈性的,如果資料集一部分丟失,則可以根據「血統」(即允許基於資料衍生過程)對它們進行重建。另外在rdd 計算時可以通過 checkpoint 來實現容錯。

3、spark 更加通用。mapreduce只提供了 map 和 reduce 兩種操作,而spark 提供的資料集操作型別有很多,大致分為:transformations 和 actions 兩大類。

5、hadoop適合處理靜態資料,對於迭代式流式資料的處理能力差;spark通過在記憶體中快取處理的資料,提高了處理流式資料和迭代式資料的效能;

但spark沒有提供檔案管理系統,所以它必須和其他的分布式檔案系統進行整合才能運作。它只是乙個計算分析框架,專門用來對分布式儲存的資料進行計算處理,並不能儲存資料。

總的來說,spark與mapreduce是一種相互共生的關係。hadoop提供了spark所沒有的功能特性,比如分布式檔案系統,而spark 為需要它的那些資料集提供了實時記憶體處理。

三、如何實現hadoop與spark的統一部署?

由於hadoop mapreduce、hbase、storm和spark等,都可以執行在資源管理框架yarn之上,因此,可以在yarn之上進行統一部署。

大資料概述作業

hadoop的侷限和不足 但是,maprecue存在以人侷限,使用起來比較困難。抽象層次低,需要手工編寫 來完成,使用上難以上手。只提供兩個操作,map和reduce,表達力欠缺。乙個job只有map和reduce兩個階段 phase 複雜的計算需要大量的job完成,job之間的依賴關係是由開發者自...

作業1大資料概述

1.hdfs 分布式檔案系統 hadoop分布式檔案系統hdfs是針對谷歌分布式檔案系統 google file system,gfs 的開源實現,它是hadoop兩大核心組成部分之一,提供了在廉價伺服器集群中進行大規模分布式檔案儲存的能力。hdfs具有很好的容錯能力,並且相容廉價的硬體裝置,因此,...

1 大資料概述

大資料時代的三種標誌 大資料,雲計算,物聯網。雲計算概念 通過網路以服務的方式為使用者提供非常廉價的it資源。雲計算通俗點講就是把以前需要本地處理器計算的任務交到了遠端伺服器上去做。幾個雲計算的應用例項 第二是網頁遊戲。這其實也是一種雲計算應用,把以前需要在本地安裝的客戶端放到了網頁上,通過基於網頁...