hadoop 優勢
高可靠性:hadoop底層維護多個資料副本,所以即使hadoop某個計算元素或儲存出現故障,也不會導致資料丟失
高擴充套件性:在集群間分配任務資料,可方便擴充套件節點
高效性:在mapreduce思想下,hadoop是並行工作的,以加快任務處理速度
高容錯性:能夠自動將失敗的任務重新分配
hadoop 1.x和hadoop 2.x 區別
在hadoop 1.x時代,hadoop中的mapreduce同時處理業務邏輯運算和資源的排程,耦合性較大,在hadoop 2.x時代,增加了yarn,yarn只負責資源的排程, mapreduce只負責運算
hdfs架構介紹
namenode(nn):儲存檔案的元資料,如檔案,檔案目錄結構,檔案屬性,以及每個檔案的塊列表和塊所在的datanode
datanode(dn):在檔案系統儲存檔案塊資料,以及塊資料的校驗和
secondary namenode(2nn):用來監控hdfs狀態的輔助後台程式,每隔一段時間獲取hdfs元資料的快照
yarn架構介紹
container:
container是yarn中的資源抽象,它封裝了某個節點上地多維度資源,如記憶體,cpu,磁碟,網路等
mapreduce構架介紹
mapreduce將計算過程分為map和reduce
1)map階段並行處理輸入資料
2)reduce階段對map結果進行彙總
大資料技術生態體系
Hadoop入門 一 介紹Hadoop
the apache hadoop project develops open source software for reliable,scalable,distributed computing.hadoop是做可靠的 可擴充套件的 分布式計算,說白了就是處理海量資料問題的解決方案。海量資料的儲...
hadoop之hadoop基礎介紹
hadoop是什麼?是乙個分布式基礎架構,主要解決海量資料儲存以及資料分析計算問題。hadoop三大發行版本?apache clourdera hortonworks hadoop優勢?高可靠 高擴充套件 高效 高容錯 hadoop1.x和2.x的區別?hdfs hadoop distributed...
大資料以及hadoop的入門介紹
為什麼大資料這幾年才發展起來?隨著網際網路技術的深入發展,產生了越來越多的資料。比如 1 電商 產生了大量的使用者瀏覽,購物行為 2 移動運營商記錄了大量的使用者上網行為 3 金融系統的分析 以上的這些需求,用以前傳統的技術無法勝任,需要有乙個全新的技術體系來支撐。在此背景下就產生了一系列針對海量資...