1 大資料概述

2022-09-23 10:30:14 字數 2483 閱讀 5173

1.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係,以圖呈現並加以文字描述。

生態系統,顧名思義就是很多元件組成的乙個生態鏈,經過多年的發展,hadoop生態系統不斷完善和成熟,目前已經包括了多個子專案,除了核心的hdfs和mapreduce以外,hadoop生態系統還包括要zoopker、hbase、hive、pig、mahout、sqoop、flume、ambari等功能元件。這些元件幾乎覆蓋了目前業界對資料處理的所有場景。

hdfs

是hadoop體系中資料儲存管理的基礎。他是乙個高度容錯的系統,能檢測和應對硬體故障。

mapreduce

mapreduce是一種計算模型,用於處理大資料量的計算。其中map對應資料集上的獨立元素進行指定的操作,生成鍵-值對形式中間,reduce則對中間結果中相同的鍵的所有值進行規約,以得到最終結果。

hive

由facebook開源,最初用於解決海量結構化的日誌資料統計問題。

hbase

hbase是乙個針對結構化資料的可伸縮,高可靠,高效能,分布式和面向列的動態模式資料庫。

zookeeper

解決分布式環境下的資料管理問題:統一命名,狀態同步,集群管理,配置同步等。

sqoop

sqoop是sql-to-hadoop的縮寫,主要用於傳統資料庫和hadoop之間傳輸資料。

資料的匯入和匯出本質上是mapreduce程式,充分利用了mr的並行化和容錯性。

pig

定義了一種資料流語言-pig latin,將指令碼轉換為mapreduce任務在hadoop上執行。

通常用於離線分析。

mahout(資料探勘演算法庫)

mahout的主要目標是建立一些可擴充套件的機器學習領域經典演算法的實現,旨在幫助開發人員更加方便快捷地建立智慧型應用程式。

flume

cloudera開源的日誌收集系統,具有分布式,高可靠,高容錯,易於定製和擴充套件的特點。

2.對比hadoop與spark的優缺點。

(1)spark基於rdd,資料並不存放在rdd中,只是通過rdd進行轉換,通過裝飾者設計模式,資料之間形成血緣關係和型別轉換;

(2)spark用scala語言編寫,相比j**a語言編寫的hadoop程式更加簡潔;

(3)相比hadoop中對於資料計算只提供了map和reduce兩個操作,spark提供了豐富的運算元,可以通過rdd轉換運算元和rdd行動運算元,實現很多複雜演算法操作,這些在複雜的演算法在hadoop中需要自己編寫,而在spark中直接通過scala語言封裝好了,直接用就ok;

(4)hadoop中對於資料的計算,乙個job只有乙個map和reduce階段,對於複雜的計算,需要使用多次mr,這樣涉及到落盤和磁碟io,效率不高;而在spark中,乙個job可以包含多個rdd的轉換運算元,在排程時可以生成多個stage,實現更複雜的功能;

(5)hadoop中中間結果存放在hdfs中,每次mr都需要刷寫-呼叫,而spark中間結果存放優先存放在記憶體中,記憶體不夠再存放在磁碟中,不放入hdfs,避免了大量的io和刷寫讀取操作;

(6)hadoop適合處理靜態資料,對於迭代式流式資料的處理能力差;spark通過在記憶體中快取處理的資料,提高了處理流式資料和迭代式資料的效能;

(7)spark對標於hadoop中的計算模組mr,但是速度和效率比mr要快得多;

(8)spark沒有提供檔案管理系統,所以,它必須和其他的分布式檔案系統進行整合才能運作,它只是乙個計算分析框架,專門用來對分布式儲存的資料進行計算處理,它本身並不能儲存資料;

(9)spark可以使用hadoop的hdfs或者其他雲資料平台進行資料儲存,但是一般使用hdfs;

(10)spark可以使用基於hdfs的hbase資料庫,也可以使用hdfs的資料檔案,還可以通過jdbc連線使用mysql資料庫資料;spark可以對資料庫資料進行修改刪除,而hdfs只能對資料進行追加和全表刪除;

3.如何實現hadoop與spark的統一部署?

一方面,由於hadoop生態系統中的一些元件所實現的功能,目前還是無法由spark取代的,比如,storm可以實現毫秒級響應的流計算,但是,spark則無法做到毫秒級響應。另一方面,企業中已經有許多現有的應用,都是基於現有的hadoop元件開發的,完全轉移到spark上需要一定的成本。因此,在許多企業實際應用中,hadoop和spark的統一部署是一種比較現實合理的選擇。

由於hadoop mapreduce、hbase、storm和spark等,都可以執行在資源管理框架yarn之上,因此,可以在yarn之上進行統一部署。

1 大資料概述

大資料時代的三種標誌 大資料,雲計算,物聯網。雲計算概念 通過網路以服務的方式為使用者提供非常廉價的it資源。雲計算通俗點講就是把以前需要本地處理器計算的任務交到了遠端伺服器上去做。幾個雲計算的應用例項 第二是網頁遊戲。這其實也是一種雲計算應用,把以前需要在本地安裝的客戶端放到了網頁上,通過基於網頁...

1 大資料概述

1.借鑑網圖 2.兩者的各方面比較 1 spark對標於hadoop中的計算模組mr,但是速度和效率比mr要快得多 2 spark沒有提供檔案管理系統,所以,它必須和其他的分布式檔案系統進行整合才能運作,它只是乙個計算分析框架,專門用來對分布式儲存的資料進行計算處理,它本身並不能儲存資料 3 spa...

1 大資料概述

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。答 主要的核心元件有hdfs和mapreduce,其他還包括zookeeper hbase hive pig mahout sqoop flume ambari等功能元件 hdfs hdfs具有很好的容錯...