1 hadoop生態系統
hdfs 分布式檔案系統 hadoop-hdfs-2.7.2.jar
ambari 安裝部署配置和管理工具
zookeeper分布式協作服務zookeeper-3.5.1.jar
hbase實時分布式資料庫hbase-server-1.0.2.jar
hive資料倉儲hive-service-1.2.1.spark.jar
pig資料流處理
mahout資料探勘庫
flume日誌收集工具flume-ng-sdk-1.6.0.jar
sqoop資料庫etl工具
2 mapreduce 思想分而治之,需要分別實現2個方法:map(),reduce()
reducer 將map任務的輸出處理後寫成檔案到hdfs
大資料 Hadoop學習筆記10
ipc程序間通訊 inter process communication rpc遠端過程呼叫 remote procedure call 1.實現原理 client 1.client.class,且遵循versionprotocal協議 2.通過 和伺服器端打交道 server 1.server.c...
大資料入門之Hadoop基礎學習
資料採集引擎 sqoop flumezookeeper 實現hadoop的ha oozie 工作流引擎第一階段 scala程式語言 第二階段 spark core 基於記憶體 資料的計算 第三階段 spark sql 類似於mysql 的sql語句 第四階段 spark streaming 進行流式...
大資料時代之hadoop 了解hadoop資料流
了解hadoop,首先就需要先了解hadoop的資料流,就像了解servlet的生命週期似的。hadoop是乙個分布式儲存 hdfs 和分布式計算框架 mapreduce 但是hadoop也有乙個很重要的特性 hadoop會將mapreduce計算移動到儲存有部分資料的各台機器上。術語 mapred...