Hadoop生態系統小記

www.easyhadoop.com

hadoop能解決哪些問題（hadoop集群把淘汰的機器放在一起）

hadoop需求

海量資料需要及時分析和處理

海量資料需要深入分析和挖掘

資料需要長期儲存

hadoop的問題是：

磁碟io成為一種瓶頸，而非cpu資源

網路頻寬是一種稀缺資源

硬體故障稱為影響穩定的一大因素

** 阿里：國內使用hadoop最深入的公司，整個taobao和阿里都是資料驅動的

資料魔方就是用hadoop平台做的

doug

nutch搜尋引擎裡面的乙個模組

受到google三篇**的啟發--mapreduce gfs bigtable

google：mapreduce、gfs、bigtable

hadoop：mapreduce、hdfs、hbase

hadoop生態系統介紹

mapreduce:(這個模型70、80年代就有這個思想了，google在2001？把他用起來了)

1、程式設計模型，主要用來做資料的分析

2、最大化利用cpu

hdfs：

1、hadoop distribute file system分布式檔案系統

2、最大化利用磁碟

hbase:

1、nosql資料庫，key-value;

2、最大化利用記憶體

hdfs篇

檔案以塊(block)方式儲存 64m（這一點表明hadoop不適合求小的檔案，）

每個區塊至少分到三颱datanode上

客戶端對檔案沒有快取機制

單一master(namenode)來協調儲存元資料(metadata)

namenode的metadate資訊在啟動後會載入到記憶體

metadata儲存到磁碟檔名為fsimage

block的位置資訊不會儲存到fsimage

datanode:

儲存block

啟動dn執行緒的時候會向nn匯報block資訊

通過向nn傳送心跳儲存與其聯絡

block的副本放置策略

第乙個副本

第二個副本

第三個副本

Hadoop生態系統

摘要介紹hadoop生態系統，從hadoop生態系統有什麼成員，成員能做什麼和hadoop生態系統能夠提供大資料問題解決方案兩方面來認識。hadoop生態圖，通俗地說，就是hadoop核心模組和衍生的子專案。一幅hadoop生態圖，讓我想到了兩個問題。問題一 hadoop生態系統包括哪些成員？每個...

Hadoop 生態系統

hadoop是乙個分布式儲存和計算平台。主要解決海量資料的儲存與分析計算問題 1 高可靠性 hadoop底層維護多個資料副本，所以即使hadoop某個計算元素或儲存出現故障，也不會導致資料的丟失。2 高擴充套件性在集群間分配任務資料，可方便的擴充套件數以乾計的節點。3 高效性在mapreduce...

Hadoop生態系統

hadoop生態系統廣義的hadoop hdfs 檔案儲存系統基於硬碟 yarn 資源排程框架 mapreduce 分布式處理框架 hive 資料倉儲 rconnections 資料分析 mahout 機器學習庫 pig 指令碼語言,跟hive類似 oozie 工作流引擎,管理作業執行順序 zoo...

Hadoop生態系統小記

Hadoop生態系統

Hadoop 生態系統

Hadoop生態系統

相關推薦