1.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係,以圖呈現並加以文字描述。
1.hadoop分布式檔案系統hdfs是針對谷歌分布式檔案系統的開源實現,它是hadoop兩大核心組成部分之一,提供了在廉價伺服器集群中進行大規模分布式檔案儲存的能力。
2.mapreduce 是一種分布式並行程式設計模型,用於大規模資料集(大於1tb)的並行運算,它將複雜的、執行於大規模集群上的平行計算過程高度抽象到兩個函式:map和reduce
3.hdfs具有很好的容錯能力,並且相容廉價的硬體裝置,因此,可以以較低的成本利用現有機器實現大流量和大資料量的讀寫。
4.yarn 是負責集群資源排程管理的元件。yarn 的目標就是實現「乙個集群多個框架」,即在乙個集群上部署乙個統一的資源排程管理框架yarn
5.hive是乙個基於hadoop的資料倉儲工具,可以用於對儲存在hadoop檔案中的資料集進行資料整理、特殊查詢和分析處理。
6.flume 是 cloudera 公司開發的乙個高可用的、高可靠的、分布式的海量日誌採集、聚合和傳輸系統。
7.sqoop是sql-to-hadoop的縮寫,主要用來在hadoop和關聯式資料庫之間交換資料,可以改進資料的互操作性。
2.對比hadoop與spark的優缺點。
hadoop的優點
1、hadoop具有按位儲存和處理資料能力的高可靠性。
2、hadoop通過可用的計算機集群分配資料,完成儲存和計算任務,這些集群可以方便地擴充套件到數以千計的節點中,具有高擴充套件性。
hadoop的缺點
1、hadoop不適用於低延遲資料訪問。
2、hadoop不能高效儲存大量小檔案。
3、hadoop不支援多使用者寫入並修改檔案。
spark的優點
1、速度快
2、使用方便,支援多語言
3、豐富的操作運算元
4、支援的場景多
5、生態完善、社群活躍
1、流式計算不如flink
2、資源消耗較高
3.如何實現hadoop與spark的統一部署?
spark可執行於yarn之上,與hadoop進行統一部署,即「spark on yarn」,資源管理和排程依賴yarn,分布式儲存則依賴hdfs。
大資料概述
1.試述大資料對思維方式的重要影響。全樣而非抽象 過去,由於資料儲存和處理能力的限制,在科學分析中,通常採用抽樣的方法,即從全集資料中抽取一部分樣本資料,再通過樣本資料的分析來推斷出全集資料的特徵。如今,有了大資料的支援,科學分析完全可以直接針對全集資料而不是抽樣資料,並且可以在短時間內迅速得到分析...
大資料概述
大資料 大資料 big data it行業術語,是指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。所謂 面向集合 collection oriented 意思是資料被分組儲存在資料集...
大資料概述
1.試述大資料對思維方式的重要影響。隨著科技的發展和人們對資料的需求日益增大,大資料時代正步入網際網路世界的主流道路上。以往網際網路資料或個人資料,或多或少存在著侷限性,資料潛在的價值並沒有被很好的利用。大資料技術收集了專案的大量相關資料,加以分析,得到許多內在問題或找到最優的解決方案,提公升了資料...