大資料之 hadoop 簡介

2022-08-03 23:51:26 字數 824 閱讀 1528

簡介:

hadoop 是乙個由 apache **會所開發的分布式系統基礎架構,它可以使使用者在不了解分布式底層細節的情況下開發分布式程式,充分利用集群的威力進行高速運算和儲存。

從其定義就可以發現,它解決了兩大問題:大資料儲存、大資料分析。也就是 hadoop 的兩大核心:hdfs 和 mapreduce。

(1)hdfs(hadoop distributed file system)是可擴充套件、容錯、高效能的分布式檔案系統,非同步複製,一次寫入多次讀取,主要負責儲存。

(2)mapreduce 為分布式計算框架,包含map(對映)和 reduce(歸約)過程,負責在 hdfs 上進行計算。

hadoop 是乙個能夠讓使用者輕鬆架構和使用的分布式計算的平台。使用者可以輕鬆地在 hadoop 發和執行處理海量資料的應用程式。其優點主要有以下幾個:

(1) 高可靠性: hadoop 按位儲存和處理資料的能力值得人們信賴。

(2) 高擴充套件性: hadoop 是在可用的計算機集簇間分配資料並完成計算任務的,這些集簇可以方便地擴充套件到數以乾計的節點中。

(3) 高效性: hadoop能夠在節點之間動態地移動資料,並保證各個節點的動態平衡,因此處理速度非常快。

(4) 高容錯性: hadoop能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新分。

(5) 低成本: 與一體機、商用資料倉儲以及 qlikview、 yonghong z- suites 等資料集市相比,hadoop 是開源的,專案的軟體成本因此會大大降低。

大資料之簡介

要理解大資料這一概念,首先要從 大 入手,大 是指資料規模,大資料一般指在10tb 1tb 1024gb 規模以上的資料量。大資料同過去的海量資料有所區別,其基本特徵可以用4個v來總結 vol ume variety value和veloc ity 即體量大 多樣性 價值密度低 速度快。大資料技術是...

大資料時代之hadoop 了解hadoop資料流

了解hadoop,首先就需要先了解hadoop的資料流,就像了解servlet的生命週期似的。hadoop是乙個分布式儲存 hdfs 和分布式計算框架 mapreduce 但是hadoop也有乙個很重要的特性 hadoop會將mapreduce計算移動到儲存有部分資料的各台機器上。術語 mapred...

大資料hadoop之yarn

yarn是乙個資源排程平台負責為運算程式提供伺服器運算資源,相當於乙個分布式作業系統平台,mr等程式在上面執行。mr程式把任務提交到客戶端所在節點 rm將使用者請求初始化乙個task進入自己的任務排程佇列,傳送task任務到nm am向rm申請執行maptask容器 rm向nm分配maptask,n...