mapreduce程式設計模型
yarn
hadoop生態圈
參考所謂大資料,就是如下幾個特點的資料,ibm用5個v來表述它:volume、velocity、variety、value、veracity。
volume: 巨大的資料量 ,集中儲存/集中計算已經無法處理巨大的資料量。
velocity:資料增長速度快,使用者基數龐大/裝置數量眾多/實時海量/資料指數級別增長。
variety:非結構化資料多樣性。
value:資料的價值密度低。
vercity:資料的真實性。
hadoop是開源的大資料框架,分布式計算的解決方案。hadoop的框架最核心的設計就是:hdfs和mapreduce。hdfs為海量的資料提供了儲存,則mapreduce為海量的資料提供了計算。可以說 hadoop= hdfs + mapreduce 。
hdfs(hadoop distributed file system)是hadoop專案的核心子專案,分布式計算中資料儲存管理的基礎,是基於流資料模式訪問和處理超大檔案的需求而開發的,可以執行於廉價的商用伺服器上。hdfs的架構如圖。
hdfs由三個「元件」構成:block,namenode,datanode。
block(資料塊)是抽象快而非整個檔案作為儲存單元。預設為64m,一般設定為128m,備份為3份。
namenode用於管理檔案系統的命名空間,存放檔案元資料,維護檔案系統的所有檔案科目了,檔案和資料塊的對映;記錄每個檔案中各塊資料節點資訊。
datanode儲存並檢索資料塊;向namenode更新儲存快列表。
hdfs的優點
hdfs的優點
tips對於小檔案問題,hadoop本身也提供了hadoop archive,sequence file和combinefileinputformat
hdfs的的寫入過程
客戶端向namenode發起寫資料請求;
分塊寫入datanode節點,datanode自動完成副本備份;
datanode向namenode匯報儲存完成,namenode通知客戶端完成。
hdfs的讀取過程
客戶端向namenode請求;
namenode找出距離最近的datanode節點資訊;
輸入乙個大檔案通過split之後,將其分為多個分片;
map方法把每個分片由單獨的機器去處理;
reduce將每個機器計算的結果進行彙總並得到最終的結果。
yarn是是hadoop的資源管理器。由於hadoop1.0只支援mapreduce任務、資源利用率低。hadoop2.0中加入yarn使得hadoop中的程式設計模型有了除mapreduce外的更多選擇,並且多種應用程式如mapreduce、spark可以使用同乙個資料集。
resourcemanager
分配和排程資源;
監控nodemanager。
為mr型別的程式申請資源,並分配給內部任務;
負責資料的切分;
監控任務的執行以及容錯。
hbase的三個關鍵屬性
rowkey:資料唯一標識,按字典排序;
column family:列族,最多不超過三個;
timestamp:時間戳,支援多版本資料同時存在。
spark.
....
.桃花仙人種桃樹,又摘桃花換酒錢_
什麼是大資料?大資料初探索!
官方定義 大資料 big data it行業術語,是指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。我的理解 大資料的特徵?容量 volume 資料的大小決定所考慮的資料的價值和潛在...
大資料初探 Hadoop歷史
hadoop是乙個開源的分布式框架,是apache下的乙個開源專案。hadoop執行可以在成千上萬個普通機器節點組成的集群上,通過分布式的計算模型和儲存模型來處理大資料集。hadoop具有高容錯性 工作在普通的機器節點上擴充套件性強等眾多的優點,是企業選擇處理大資料集工具的不二 人 選。這個框架是另...
大資料初探 Hadoop歷史
hadoop是乙個開源的分布式框架,是apache下的乙個開源專案。hadoop執行可以在成千上萬個普通機器節點組成的集群上,通過分布式的計算模型和儲存模型來處理大資料集。hadoop具有高容錯性 工作在普通的機器節點上擴充套件性強等眾多的優點,是企業選擇處理大資料集工具的不二 人 選。這個框架是另...