一、列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係,以圖呈現並加以文字描述。
元件1:hdfs,作用:分布式檔案系統,儲存是hadoop體系的基礎。
元件2:mapreduce,作用:作為一種計算模型,用來大資料的計算。
元件3:yarn,作用:改善mapreduce的缺陷,是另一種資源協調者,是hadoop的資源管理器。
元件4:sqoop,作用:傳統資料庫和hadoop之間傳輸資料。
元件5:mahout,作用:幫助開發人員更加方便快捷地建立智慧型應用程式。
元件6:hive,作用:基於hadoop的資料倉儲,定義簡單的sql查詢語言,可以用sql進行資料查詢。
元件7:hbase,作用:針對結構化資料的可伸縮、高可靠、高效能、分布式和面向列的動態模式資料庫。
元件8:spark,作用:為大規模資料處理而設計的計算引擎。
元件9:zookeeper,作用:主要解決分布式環境下的資料管理問題。
元件10:storm,作用:是乙個資料流處理系統。
該圖**於:
二、對比hadoop與spark的優缺點。
hadoop的優點
1、能夠按位儲存和並且有著處理資料能力的高可靠性。
2、利用計算機集群分配資料,儲存,計算,具有高擴充套件性。
3、可以在節點之間進行動態地移動資料,並保證各個節點的動態平衡,處理速度非常快,具有高效性。
4、可以自動儲存資料的多個副本,並且能夠自動將失敗的任務重新分配,具有高容錯性。
hadoop的缺點
1、不適用於低延遲資料訪問。
2、不能高效儲存大量小檔案。
3、不支援多使用者寫入並任意修改檔案。
spark的優點
1、速度快,適合實時分析場景。
2、支援多種語言。
3、支援多種格式的資料**。
4、可以在任何環境下搭建。
spark的缺點
1、jvm的記憶體太大。
2、長時間執行會經常出錯。
三、如何實現hadoop與spark的統一部署?
hadoop生態系統中的一些元件所實現的功能,目前還是無法由spark取代的,storm可以實現毫秒級響應的流計算,但是,spark則無法做到毫秒級響應,因此可以在yarn上進行統一部署。
大資料第一次作業 201806120017李佳杭
微博一天所產生的資料根據平均值計算在100 200mb 人,主要資料以文字資料,jpg和mp4為主。2.對物流行業進行大資料分析 以北斗 gps導航技術為基礎,物流管理部門或者應用可以使用北斗位置服務平台通過對同時產生的位置服務資訊 實時物流車輛資訊的採集,針對物流車輛的gps軌跡資料進行分析,提供...
第一次作業1
我是張學 學號 2017 7183 我的愛好是 看電影.我的碼雲個人主頁是 目前 量有600行了 我認為北軟最好吃的是黃燜雞!1 回想一下你初入大學時對計算機專業的暢想,當初是如何做出選擇計算機專業的決定的?從一開始就對計算機有興趣,對電腦方面運用熟練,所以選擇了計算機專業 你認為過去兩年中接觸到的...
第一次作業大資料概述
對比hadoop與spark的優缺點。spark是乙個快速 通用且可擴充套件的大資料分析引擎。spark生態系統已經演變成一系列子專案,包括sparksql spark streaming graphx mllib等。spark是乙個基於記憶體計算的大資料平行計算框架。spark基於記憶體計算,它改...