1 大資料概述

2022-09-28 03:42:11 字數 889 閱讀 4300

hdfs可以相容廉價的硬體裝置,利用較低成本的及其實現大流量和大資料量的讀寫。

mapreduce是分布式並行程式設計模型,使用者大規模資料集的平行計算,讓不會分布式並行程式設計的技術人員,也可以將程式執行在分布式系統上,實現海量資料集的計算。

yarn是集群資源排程管理的元件,在yarn之上部署其他計算框架,由yarn統一進行資源分配。

hbase可以支援超大規模資料儲存,它可以通過水平擴充套件的方式,利用廉價計算機集群處理由超過10億行元素和數百萬列元素組成的資料表

對儲存在hadoop檔案中的資料集進行資料整理、特殊查詢和分析處理。

flume支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,flume提供對資料進行簡單處理,並寫到各種資料接收方的能力。

用來在hadoop和關聯式資料庫之間交換資料,可以改進資料的互操作性。

spark在記憶體中處理資料相比於hadoop使用磁碟io進行操作速度更快

spark支援scala、j**a、python、spark sql等語言等,spark可以使用互動模式操作獲得實時反饋。

mapreduce沒有互動模式。

spark在資料多大pb的情況下依然有非常高的處理速度。被用於在數量只有十分之一的機器上,對100tb資料進行排序的速度比hadoop mapreduce快3倍。

mapreduce和spark相互相容;mapreduce通過jdbc和odc相容諸多資料來源、檔案格式和商業智慧型工具,spark具有與mapreduce同樣的相容性。

不同的計算框架統一執行在yarn之上,由yarn進行資源排程和管理,計算資源按需伸縮,不需要負載應用混搭,提高集群利用率,共享底層儲存,避免資料跨集群遷移。

1 大資料概述

大資料時代的三種標誌 大資料,雲計算,物聯網。雲計算概念 通過網路以服務的方式為使用者提供非常廉價的it資源。雲計算通俗點講就是把以前需要本地處理器計算的任務交到了遠端伺服器上去做。幾個雲計算的應用例項 第二是網頁遊戲。這其實也是一種雲計算應用,把以前需要在本地安裝的客戶端放到了網頁上,通過基於網頁...

1 大資料概述

1.借鑑網圖 2.兩者的各方面比較 1 spark對標於hadoop中的計算模組mr,但是速度和效率比mr要快得多 2 spark沒有提供檔案管理系統,所以,它必須和其他的分布式檔案系統進行整合才能運作,它只是乙個計算分析框架,專門用來對分布式儲存的資料進行計算處理,它本身並不能儲存資料 3 spa...

1 大資料概述

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。答 主要的核心元件有hdfs和mapreduce,其他還包括zookeeper hbase hive pig mahout sqoop flume ambari等功能元件 hdfs hdfs具有很好的容錯...