hadoop官網:一、hadoop概述
1、伺服器(節點)
可以理解為我們的一台筆記本/台式電腦,在這裡可以認為是我們的一台虛擬機器
後面學習中,我們會把一台伺服器稱為乙個節點
乙個公司裡,會有很多伺服器。尤其是hadoop集群大到上千臺伺服器搭建成集群
2、機架負責存放伺服器的架子
3、什麼是hadoop?hadoop是乙個適合海量資料的分布式儲存(hdfs)和分布式計算(mr)的平台
舉例:購物平台:**、京東
4、hadoop的三大元件hadoop是乙個統稱,目前hadoop主要包含三大元件
(1)hdfs:是乙個分布式儲存框架,適合海量資料儲存
(2)mapreduce:是乙個分布式計算框架,適合海量資料計算
(3)yarn:是乙個資源排程平台,負責給計算框架分配計算資源
hadoop1.x系列是沒有yarn的5、hadoop版本介紹(了解一下)hadoop2.x系列開始才有的yarn
目前,hadoop已經演變為大資料計算的代名詞,形成了一套完善的大資料計算的生態系統,所以針對hadoop也出現了很多版本
apache hadoop(需要我們手動搭建)
官方版本
cloudera hadoop(cdh)
hortonworks(hdp)
基於apache的版本進行了整合,結合ambari可以實現平台化快速安裝部署
6、分布式儲存(hdfs)(1)具有主從架構
(2)去中心化架構----zookeeper
在主從架構中:
主節點:namenode,負責儲存元資料
從節點:datanodes,負責儲存資料本身
通常情況下,主節點有乙個備用的nameinode,防止單節點故障
hdfs集群由單個名稱節點組成,主伺服器管理檔案系統命名空間並控制客戶機對檔案的訪問。
此外,還有許多資料節點,通常是集群中每個節點乙個,它們管理連線到執行它們的節點的儲存
7、分布式儲存的詳細介紹
在分布式儲存系統中,分散在不同節點中的資料可能屬於同乙個檔案(因為乙個大檔案可能被分為了很多個block塊)
為了組織眾多的檔案,把檔案可以放到不同的資料夾中,資料夾可以一級一級的包含。
我們把這種組織形式稱為命名空間(namespace)
命名空間由namenode管理
命名空間管理著整個伺服器集群中的所有檔案。
集群中不同的節點承擔不同的職責。
負責命名空間職責的節點稱為主節點,namenode放在master上面
負責儲存真實資料職責的節點稱為從節點,datanode放在node1、node2...上面
主節點負責管理檔案系統的檔案結構(說白了就是目錄),從節點負責儲存真實的資料,稱為主從式結構(master-sl**es)
使用者操作時,應該先和主節點打交道,查詢資料在哪些從節點上儲存,然後再到從節點讀取。
在主節點上,為了加快使用者訪問的速度,會把整個命名空間資訊都放在記憶體中,當儲存的檔案越多時,那麼主節點就需要越多的記憶體空間。
在從節點儲存資料時,有的原始資料檔案可能很大,有的可能很小,大小不一的檔案不容易管理,那麼可以抽象出乙個獨立的儲存檔案單位,稱為塊(block),乙個block塊是128m
資料存放在集群中,可能因為網路原因或者節點硬體原因造成訪問失敗,最好採用副本(replication)機制,把資料同時備份到多台節點中,這樣資料就安全了,資料丟失或者訪問失敗的概率就小了。
8、hafs架構分析(1)負責資料的分布式儲存
(2)主從結構
主節點,一般有2個:namenode
從節點,有多個:datanode
(3)namenode負責
接收使用者操作請求,是使用者操作的入口
維護檔案系統的目錄結構,稱作命名空間
(4)datanode負責
儲存資料
9、yarn架構分析(1)資源的排程和管理平台
(2)主從結構
主節點,一般有2個:resourcemanager
從節點,有很多個: nodemanager
(3)resourcemanager負責
集群資源的分配與排程
(4)nodemanager負責
單節點資源的管理(cpu+記憶體)
10、mapreduce架構分析(1)依賴磁碟io的批處理計算模型(mapreduce基於磁碟,spark基於記憶體)
(2)主從結構
從節點,就是具體的task
接收客戶端提交的計算任務
把計算任務分給nodemanager的container中執行,即任務排程
container是yarn中資源的抽象,它封裝了某個節點上一定量的資源(cpu和記憶體兩類資源)
(4)task負責:
處理資料
二、hadoop的特點(seer)(1)擴容能力(scalable):能可靠(reliably)地儲存和處理pb級別的資料。如果資料量更大,儲存不下了,再增加節點就可以了。
(2)成本低(economical):可以通過普通機器組成的伺服器集群來分發以及處理資料.這些伺服器集群可達數千個節點。
(3)高效率(efficient):通過分發計算程式,hadoop可以在資料所在節點上(本地)並行地(parallel)處理他們,這使得處理非常的迅速
(4)可靠性(reliable):hadoop能夠自動地維護資料的多份副本,並且在任務失敗後能夠自動地重新部署(redeploy)計算任務
Hadoop特點和缺點
hadoop特點和缺點 1 支援超大檔案,一般來說,hdfs儲存的檔案可以支援tb和pb級別的資料。2 檢測和快速應對硬體故障 在集群環境中,硬體故障是常見性問題。因為有上千臺伺服器連在一起,故障率高,因此故障檢測和自動恢復hdfs檔案系統的乙個設計目標。假設某乙個datanode節點掛掉之後,因為...
大資料特點 Hadoop概述 版本介紹 模組
hadoop是apache提供的乙個開源的 可靠的 可擴充套件的 用於分布式計算的頂級專案。hadoop1.0 hdfs mapreduce hadoop2.0 hdfs mapreduce yarn。hadoop2.0版本不相容1.0 hadoop3.0 hdfs mapreduce yarn o...
Spark RDD概述特點
rdd resilient distributed dataset 叫做分布式資料集,是spark中最基本的資料抽象。中是乙個抽象類,它代表乙個不可變 可分割槽 裡面的元素可平行計算的集合。一組分割槽 partition 即資料集的基本組成單位 乙個計算每個分割槽的函式 rdd之間的依賴關係 乙個p...