1. 闡述hadoop生態系統中,hdfs, mapreduce, yarn, hbase及spark的相互關係。
答:hdfs是所有hadoop生態的底層儲存架構,它主要完成了分布式儲存系統的邏輯,凡是需要儲存的都基於其上構建。
yarn是負責集群資源管理的部分,這個資源包括計算資源和儲存資源,因此它也支撐了hdfs和各種計算模組。
map-reduce元件主要完成了map-reduce任務的排程邏輯,它依賴於hdfs作為輸入輸出及中間過程的儲存,因此在hdfs之上,它也依賴yarn為它分配資源,因此也在yarn之上。
hbase基於hdfs儲存,通過獨立的服務管理起來,因此僅在hdfs之上。
hive基於hdfs儲存,通過獨立的服務管理起來,因此僅在hdfs之上。
spark基於hdfs儲存,即可以依賴yarn做資源分配計算資源也可以通過獨立的服務管理,因此在hdfs之上也在yarn之上,從結構上看它和mapreduce一層比較像。
總之,每乙個系統負責了自己擅長的一部分,同時相互依託,形成了整個hadoop生態。
2. spark已打造出結構一體化、功能多樣化的大資料生態系統,請簡述spark生態系統。
答:spark的設計遵循「乙個軟體棧滿足不同應用場景」的理念,逐漸形成一套完整生態系統,既能夠提供記憶體計算框架,也可以支援sql即席查詢、實時流式計算、機器學習和圖計算等。spark可以部署在資源管理器yarn之上,提供一站式的大資料解決方案。因此,spark所提供的生態系統同時支援批處理、互動式查詢和流資料處理。
3. 用**描述你所理解的spark執行架構,執行流程。
答:spark執行架構及流程:
基本概念:
spark執行基本流程:
為應用構建起基本的執行環境,即由driver建立乙個sparkcontext進行資源的申請、任務的分配和監控
資源管理器為executor分配資源,並啟動executor程序。
sparkcontext根據rdd的依賴關係構建dag圖,dag圖提交給dagscheduler解析成stage,然後把乙個個taskset提交給底層排程器taskscheduler處理。
executor向sparkcontext申請task,taskscheduler將task發放給executor執行並提**用程式**。
task在executor上執行把執行結果反饋給taskscheduler,然後反饋給dagscheduler,執行完畢後寫入資料並釋放所有資源。
spark執行架構特點:
(2)spark執行過程與資源管理器無關,只要能夠獲取executor程序並儲存通訊即可。
task採用資料本地性和推測執行等優化機制。
第一次作業 Spark架構與執行流程
1.闡述hadoop生態系統中,hdfs,mapreduce,yarn,hbase及spark的相互關係,為什麼要引入yarn和spark。hdfs是hadoop體系中資料儲存管理的基礎,它是乙個高度容錯的系統,能檢測和應對硬體故障,在低成本的通用硬體上執行。hbase構建在hdfs之上的分布式,面...
第一次作業
1.用較低的成本,開發出滿足客戶需求的軟體,開發的軟體可靠性高,易於維護和移植 2.分為設計階段,開發階段和測試執行階段 1 設計階段 分析客戶需求,明確要解決哪些問題,實現哪些功能,以及確定基本方法 2 開發階段 a.概要設計 畫出流程圖,進行模組化劃分,建立模組的層次結構以及呼叫關係 b.詳細設...
第一次作業
1.4 非計算機專業 程式和軟體有何不同?答 程式是通過計算機語言寫出來的具有許多演算法的摸板,是實現軟體功能的底層推手 推手的意思可以理解為動力 所以,程式是軟體的內在因子,而軟體是乙個或多個程式通過編譯器編譯出來的成品。1.3 查詢資料,解釋什麼是圖靈測試?答 指測試者與被測試者 乙個人和一台機...