大資料之 Hadoop學習筆記

2022-08-12 13:27:19 字數 437 閱讀 2075

1 hadoop生態系統

hdfs 分布式檔案系統 hadoop-hdfs-2.7.2.jar

ambari 安裝部署配置和管理工具

zookeeper分布式協作服務zookeeper-3.5.1.jar

hbase實時分布式資料庫hbase-server-1.0.2.jar

hive資料倉儲hive-service-1.2.1.spark.jar

pig資料流處理

mahout資料探勘庫

flume日誌收集工具flume-ng-sdk-1.6.0.jar

sqoop資料庫etl工具

2 mapreduce 思想分而治之,需要分別實現2個方法:map(),reduce()

reducer 將map任務的輸出處理後寫成檔案到hdfs

大資料 Hadoop學習筆記10

ipc程序間通訊 inter process communication rpc遠端過程呼叫 remote procedure call 1.實現原理 client 1.client.class,且遵循versionprotocal協議 2.通過 和伺服器端打交道 server 1.server.c...

大資料入門之Hadoop基礎學習

資料採集引擎 sqoop flumezookeeper 實現hadoop的ha oozie 工作流引擎第一階段 scala程式語言 第二階段 spark core 基於記憶體 資料的計算 第三階段 spark sql 類似於mysql 的sql語句 第四階段 spark streaming 進行流式...

大資料時代之hadoop 了解hadoop資料流

了解hadoop,首先就需要先了解hadoop的資料流,就像了解servlet的生命週期似的。hadoop是乙個分布式儲存 hdfs 和分布式計算框架 mapreduce 但是hadoop也有乙個很重要的特性 hadoop會將mapreduce計算移動到儲存有部分資料的各台機器上。術語 mapred...