第一次作業(2)

2022-09-23 01:42:12 字數 1781 閱讀 8465

1.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係,以圖呈現並加以文字描述。

hadoop分布式檔案系統:hdfs是google分布式檔案系統的開源實現。它是hadoop的兩個核心元件之一,在低成本伺服器集群中提供大規模分布式檔案儲存的能力

mapreduce:一種分布式並行程式設計模型,用於大規模資料集的平行計算。它將大規模集群上執行的複雜平行計算過程高度抽象為兩個功能:map和reduce。

yarn: 它是乙個負責集群資源排程管理的元件。紗線的目標是實現「乙個集群中的多個框架」,即在乙個集群上部署乙個統一的資源排程和管理框架紗線,其他計算框架可以部署在紗線上

hbase:它是google bigtable的開源實現。它是乙個高度可靠、高效能、面向列、可擴充套件的分布式資料庫,主要用於儲存非結構化和半結構化的鬆散資料。

hive:它是乙個基於hadoop的資料倉儲工具,可用於hadoop檔案中儲存的資料集的資料排序、特殊查詢和分析。

flume:它是cloudera公司開發的乙個高可用、可靠、分布式的海量日誌收集、聚合和傳輸系統。

sqoop是sql對hadoop的縮寫。它主要用於hadoop和關聯式資料庫之間的資料交換,可以提高資料的互操作性。

2:對比hadoop與spark的優缺點。

首先,spark 把中間資料放到記憶體中,迭代運算效率高。mapreduce 中計算結果需要落地,儲存到磁碟上,這樣勢必會影響整體速度,而 spark 支援 dag 圖的分布式平行計算的程式設計框架,減少了迭代過程中資料的落地,提高了處理效率。

其次,spark 容錯性高。spark 引進了彈性分布式資料集 rdd (resilient distributeddataset) 的抽象,它是分布在一組節點中的唯讀物件集合,這些集合是彈性的,如果資料集一部分丟失,則可以根據「血統」對它們進行重建。另外在rdd 計算時可以通過 checkpoint 來實現容錯。

最後,spark 更加通用。mapreduce 只提供了 map 和 reduce 兩種操作,spark 提供的資料集操作型別有很多,大致分為:transformations 和 actions 兩大類。transformations包括 map、filter、flatmap、sample、groupbykey、reducebykey、union、join、cogroup、mapvalues、sort 等多種操作型別,同時還提供 count, actions 包括 collect、reduce、lookup 和 s**e 等操作

總結:spark 是 mapreduce 的替代方案,而且相容 hdfs、hive,可融入 hadoop 的生態系統,以彌補 mapreduce 的不足。

3.如何實現hadoop與spark的統一部署?

由於hadoop生態系統中的某些元件實現的功能,spark目前無法替代它。例如,storm可以實現毫秒響應的流量計算,而spark不能實現毫秒響應。另一方面,企業中已有許多基於現有hadoop元件開發的現有應用程式,完全轉移到spark需要一定的成本。因此,在很多企業實際應用中,統一部署hadoop和spark是乙個現實合理的選擇。

由於hadoop mapreduce、hbase、storm和spark都可以在資源管理框架thread上執行,因此它們可以統一部署在thread上

團隊作業第一次 團隊作業第一次(2)

這個作業屬於哪個課程 班級的鏈結 這個作業要求在 作業要求的鏈結 這個作業的目標 作業正文 如下其他參考文獻 1.引用文章所列舉的問題 閒魚平台存在很大問題!2.引用文章所列舉的問題 閒魚平台機制存在嚴重問題 賣家方損失嚴重 3.引用文章所列舉的問題 黑貓投訴 投訴閒魚不處理 4.引用文章所列舉的問...

團隊作業第一次 團隊作業第一次(2)

這個作業屬於哪個課程 班級的鏈結 這個作業要求在 作業要求的鏈結 這個作業的目標 作業正文 如下其他參考文獻 1.引用文章所列舉的問題 閒魚平台存在很大問題!2.引用文章所列舉的問題 閒魚平台機制存在嚴重問題 賣家方損失嚴重 3.引用文章所列舉的問題 黑貓投訴 投訴閒魚不處理 4.引用文章所列舉的問...

第一次作業 2

一 問題及 圓的周長及面積 include using namespace std int main double r,c,s cout r c 2 3.1415926 r s 3.1415926 r r cout 二 執行結果 輸入半徑35,輸出周長219.911,輸出面積3848.45 三 心得...