1 大資料概述

2022-09-28 23:27:21 字數 1181 閱讀 6746

1.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係,以圖呈現並加以文字描述。

其中hdfs是整個hadoop體系的基礎,負責資料的儲存與管理;mapreduce是一種基於磁碟的分布式並行批處理計算模型,用於處理大資料量的計算;spark是一種基於記憶體的分布式平行計算框架,不同於mapreduce的是——job中間輸出結果可以儲存在記憶體中,從而不再需要讀寫hdfs,因此spark能更好地適用於資料探勘與機器學習等需要迭代的mapreduce的演算法;flink是乙個基於記憶體的分布式並行處理框架,類似於spark,但在部分設計思想有較大出入;yarn是分布式資源管理器,實現在乙個集群上部署乙個統一的資源排程管理框架;zookeeper用於解決分布式環境下的資料管理問題;sqoop是sql-to-hadoop的縮寫,主要用於傳統資料庫和hadoop之前傳輸資料;hive定義了一種類似sql的查詢語言(hql),將sql轉化為mapreduce任務在hadoop上執行。通常用於離線分析;hbase是乙個建立在hdfs之上,面向列的針對結構化資料的可伸縮、高可靠、高效能、分布式和面向列的動態模式資料庫;flume是乙個可擴充套件、適合複雜環境的海量日誌收集系統;

2.對比hadoop與spark的優缺點。

spark確實速度很快(最多比hadoop mapreduce快100倍)。spark還可以執行批量處理,然而它真正擅長的是處理流工作負載、互動式查詢和機器學習。

相比mapreduce基於磁碟的批量處理引擎,spark賴以成名之處是其資料實時處理功能。spark與hadoop及其模組相容。實際上,在hadoop的專案頁面上,spark就被列為是乙個模組。

spark有自己的頁面,因為雖然它可以通過yarn(另一種資源協調者)在hadoop集群中執行,但是它也有一種獨立模式。它可以作為 hadoop模組來執行,也可以作為獨立解決方案來執行。

mapreduce和spark的主要區別在於,mapreduce使用持久儲存,而spark使用彈性分布式資料集(rdds)。

3.如何實現hadoop與spark的統一部署?

hadoop mapreduce、hbase、storm和spark等,都可以執行在資源管理框架yarn之上,因此,可以在yarn之上進行統一部署,即「spark on yarn」,資源管理和排程深度依賴yarn,分布式儲存則依賴hdfs。

1 大資料概述

大資料時代的三種標誌 大資料,雲計算,物聯網。雲計算概念 通過網路以服務的方式為使用者提供非常廉價的it資源。雲計算通俗點講就是把以前需要本地處理器計算的任務交到了遠端伺服器上去做。幾個雲計算的應用例項 第二是網頁遊戲。這其實也是一種雲計算應用,把以前需要在本地安裝的客戶端放到了網頁上,通過基於網頁...

1 大資料概述

1.借鑑網圖 2.兩者的各方面比較 1 spark對標於hadoop中的計算模組mr,但是速度和效率比mr要快得多 2 spark沒有提供檔案管理系統,所以,它必須和其他的分布式檔案系統進行整合才能運作,它只是乙個計算分析框架,專門用來對分布式儲存的資料進行計算處理,它本身並不能儲存資料 3 spa...

1 大資料概述

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。答 主要的核心元件有hdfs和mapreduce,其他還包括zookeeper hbase hive pig mahout sqoop flume ambari等功能元件 hdfs hdfs具有很好的容錯...