Hadoop 入門介紹

2021-10-03 09:17:57 字數 957 閱讀 6657

hadoop 優勢

高可靠性:hadoop底層維護多個資料副本,所以即使hadoop某個計算元素或儲存出現故障,也不會導致資料丟失

高擴充套件性:在集群間分配任務資料,可方便擴充套件節點

高效性:在mapreduce思想下,hadoop是並行工作的,以加快任務處理速度

高容錯性:能夠自動將失敗的任務重新分配

hadoop 1.x和hadoop 2.x 區別

在hadoop 1.x時代,hadoop中的mapreduce同時處理業務邏輯運算和資源的排程,耦合性較大,在hadoop 2.x時代,增加了yarn,yarn只負責資源的排程, mapreduce只負責運算

hdfs架構介紹

namenode(nn):儲存檔案的元資料,如檔案,檔案目錄結構,檔案屬性,以及每個檔案的塊列表和塊所在的datanode

datanode(dn):在檔案系統儲存檔案塊資料,以及塊資料的校驗和

secondary namenode(2nn):用來監控hdfs狀態的輔助後台程式,每隔一段時間獲取hdfs元資料的快照

yarn架構介紹

container:

container是yarn中的資源抽象,它封裝了某個節點上地多維度資源,如記憶體,cpu,磁碟,網路等

mapreduce構架介紹

mapreduce將計算過程分為map和reduce

1)map階段並行處理輸入資料

2)reduce階段對map結果進行彙總

大資料技術生態體系

Hadoop入門 一 介紹Hadoop

the apache hadoop project develops open source software for reliable,scalable,distributed computing.hadoop是做可靠的 可擴充套件的 分布式計算,說白了就是處理海量資料問題的解決方案。海量資料的儲...

hadoop之hadoop基礎介紹

hadoop是什麼?是乙個分布式基礎架構,主要解決海量資料儲存以及資料分析計算問題。hadoop三大發行版本?apache clourdera hortonworks hadoop優勢?高可靠 高擴充套件 高效 高容錯 hadoop1.x和2.x的區別?hdfs hadoop distributed...

大資料以及hadoop的入門介紹

為什麼大資料這幾年才發展起來?隨著網際網路技術的深入發展,產生了越來越多的資料。比如 1 電商 產生了大量的使用者瀏覽,購物行為 2 移動運營商記錄了大量的使用者上網行為 3 金融系統的分析 以上的這些需求,用以前傳統的技術無法勝任,需要有乙個全新的技術體系來支撐。在此背景下就產生了一系列針對海量資...