大資料論述

2022-06-30 09:15:08 字數 2642 閱讀 8394

1.用圖表描述hadoop生態系統的各個元件及其關係。

hadoop生態系統除了核心的hdfs和mapreduce以外,hadoop生態系統還包括zookeeper、hbase、hive、pig、mahout、sqoop、flume、ambari等功能元件。

(1).hdfs:具有處理超大資料、流式處理、可以執行在廉價商用伺服器上,訪問應用程式資料時有很高的吞吐率。

(2).hbase:是乙個高可靠、高效能、面向列、可伸縮的分布式資料庫,採用基於列的儲存,具有良好的橫向擴充套件能力。

(3).mapreduce:分布式並行程式設計模型,用於大規模資料集(大於1tb)的並行運算,將自己的程式執行在分布式系統上,完成海量資料集的計算。

(4).hive:資料倉儲工具,對資料進行資料整理、特殊查詢和分析處理。

(5).pig:資料分析平台,側重資料查詢和分析。

(6).zookeeper:提供分布式鎖之類的基本服務。

(7).flume:高可用的、高可靠的、分布式的海量日誌採集、聚合和傳輸系統,定製各類資料傳送方,用於收集資料。

(8).sqoop:主要用來在hadoop和關聯式資料庫之間交換資料,可以改進資料的互操作性。

2.闡述hadoop生態系統中,hdfs, mapreduce, yarn, hbase及spark的相互關係。

hadoop是乙個能夠對大量資料進行分布式處理的軟體框架。具有可靠、高效、可伸縮的特點。

hadoop的核心是hdfs和mapreduce,hadoop2.0還包括yarn。

(1)hdfs集群:負責海量資料的儲存。

(2)yarn集群:負責海量資料運算時的資源排程。

(3)mapreduce:它其實是乙個應用程式開發包。

從開源角度看,yarn的提出,從一定程度上弱化了多計算框架的優劣之爭。yarn是在hadoop mapreduce基礎上演化而來的,在mapreduce時代,很多人批評mapreduce不適合迭代計算和流失計算,於是出現了spark和storm等計算框架,而這些系統的開發者則在自己的**上或者**裡與mapreduce對比,鼓吹自己的系統多麼先進高效,而出現了yarn之後,則形勢變得明朗:mapreduce只是執行在yarn之上的一類應用程式抽象,spark和storm本質上也是,他們只是針對不同型別的應用開發的,沒有優劣之別,各有所長,合併共處,而且,今後所有計算框架的開發,不出意外的話,也應是在yarn之上。這樣,乙個以yarn為底層資源管理平台,多種計算框架執行於其上的生態系統誕生了。

hdfs

hdfs(hadoop分布式檔案系統)源自於google的gfs**,發表於2023年10月,hdfs是gfs的實現版。hdfs是hadoop體系中資料儲存管理的基礎,它是乙個高度容錯的系統,能檢測和應對硬體故障,在低成本的通用硬體上執行。hdfs簡化了檔案的一次性模型,通過流式資料訪問,提供高吞吐量應用程式資料訪問功能,適用帶有資料集的應用程式。hdfs提供一次寫入多次讀取的機制,資料以塊的形式,同時分布儲存在不同的物理機器上。 

hdfs預設的最基本的儲存單位是64mb的資料塊,和普通檔案系統一樣,hdfs中的檔案被分成64mb一塊的資料塊儲存。它的開發是基於流資料模式訪問和處理超大檔案的需求。

mapreduce

mapduce(分布式計算框架)源自於google的mapreduce**,發表於2023年12月,hadoop mapreduce是google reduce 轉殖版。mapreduce是一種分布式計算模型,用以進行海量資料的計算。它遮蔽了分布式計算框架細節,將計算抽象成map 和reduce兩部分,其中map對資料集上的獨立元素進行指定的操作,生成鍵-值對形式中間結果。reduce則對中間結果中相同「鍵」的所有「值」進行規約,以得到最終結果。mapreduce非常適合在大量計算機組成的分布式並行環境裡進行資料處理。

hbase

hbase(分布式列存資料庫)源自google的bigtable**,發表於2023年11月,hbase是google table的實現。hbase是乙個建立在hdfs之上,面向結構化資料的可伸縮、高可靠、高效能、分布式和面向列的動態模式資料庫。hbase採用了bigtable的資料模型,即增強的稀疏排序對映表(key/value),其中,鍵由行關鍵字、列關鍵字和時間戳構成。hbase提供了對大規模

yarn

yarn(分布式資源管理器)是下一代mapreduce,即mrv2,是在第一代mapreduce基礎上演變而來的,主要是為了解決原始hadoop擴充套件性差,不支援多計算框架而提出的。yarn是下一代hadoop計算平台,是乙個通用的執行時框架,使用者可以編寫自己的極端框架,在該執行環境中執行。

spark

spark(記憶體dag計算模型)是乙個apche專案,被標榜為「快如閃電的集群計算」,它擁有乙個繁榮的開源社群,並且是目前最活躍的apache專案。最早spark是uc berkeley amp lab所開源的類hadoop mapreduce的通用計算框架,spark提供了乙個更快、更通用的資料處理平台。和hadoop相比,spark平台可以讓你的程式在記憶體中執行時速度提公升100倍,或者在磁碟上執行時速度提公升10倍。

目前spark是乙個非常流行的記憶體計算(或者迭代式計算,dag計算)框架

基於雲計算與大資料應用開發的論述

基於雲計算與大資料應用開發的論述 2010年前後由雲計算 大資料等技術的快速發展帶來了第三次資訊化浪潮,標誌著大資料時代的來臨 儲存裝置容量的不斷增加 cpu處理能力的大幅提公升 網路頻寬的不斷增加等資訊科技領域的不斷進步為大資料時代提供了技術支撐 而最終促進大資料時代來臨的重要因素便是資料產生方式...

DirectX綜合論述

directx的幾個元件 2 directsound 聲音元件,只支援數字聲音,不支援midi。3 directmusic 支援midi,並且具有全新的dls的系統。4 directsound3d 支援3d聲音的元件。5 directplay 網路方面的元件。6 directinput 使用者輸入方...

Vmstat主要關注哪些資料 效能論述

除特殊情況外,一般關注飄紅部分 任務的資訊 procs r running 在internal時間段裡,執行佇列中的程序數,即表示正在執行或者正在等待cpu時間的程序數,如果這個引數值超過伺服器上cpu的數量,就可能存在 cpu瓶頸,有一些任務要等待執行。當業務繁忙的時候,不超過2倍cpu數量,還是...