google大資料技術
mapreduce bigtable gfs
hadoop
乙個模仿google大資料技術的開源實現
開源的 apache
分布式儲存 + 分布式計算平台
核心:hdfs 分布式檔案系統 儲存海量資料
mapreduce 並行處理框架 實現任務分解和排程
用途搭建大型資料倉儲 pb級資料儲存 處理 分析 等業務
開源工具:
hive :降低使用hadoop的使用門檻
hbase 提供資料的讀寫和實時訪問,實現對錶資料的讀寫功能
zookeeper 管理hadoop節點功能
版本:1.x 2.x
1.x穩定
2.x不穩定
新手使用1.2
安裝:1.準備linux環境
2.安裝jdk
3.配置hadoop
通過網路租用 雲主機
阿里雲 unintestack 等
hdfs 檔案系統
hdfs的檔案被分成塊進行儲存
hdfs塊的預設大小為64m
塊是檔案儲存處理的邏輯單元
兩類節點
namenode datanode
namenode 管理節點,存放檔案元資料
datanode hdfs工作節點,存放資料塊
資料塊副本:每個資料塊3個副本 分別存放在2個機架上
hdfs特點
1.資料冗餘 硬體容錯
2.流式的資料訪問
3.儲存大檔案
適用性和侷限性
適合資料批量讀寫,吞吐量高
不適合互動應用,低延遲很難滿足
適合一次寫入 多次讀取 順序讀寫
不支援多使用者併發寫相同檔案
mapreduce
分而治之,將乙個大任務分成多個小的子任務(map),並行執行後合併結果。
基本概念
job & task
jobtracker
tasktracker
mapreduce的容錯機制
1.重複執行
2.推測執行
hadoop初級遇到的問題
1.securecrt輸出亂碼問題 未解決問題 執行mapreduce程式時,報網域名稱解析失敗 gzip stdin not in gzip format tar child returned status 1 tar error is not recoverable exiting now 解決...
Hadoop基礎概念
狹義 hadoop軟體 hadoop.apache.org 廣義 hadoop生態圈 hive zookeeper spark 用2.x 3.x 需要踩坑 主要用cdh5.x 部署大資料環境 用的是 hadoop2.6.0 cdh5.7.0 ctrl f 搜尋 cdh5.7.0 hdfs 儲存 分布...
Hadoop基礎概念
hadoop模組組成 hdfs 用於儲存 可靠的,高吞量的分布式檔案系統 mapreduce 用於計算 分布式的離線平行計算框架 yarn 用於資源排程 作業排程與集群資源管理框架 common 支援其他模組的工具模組 檔案系統核心模組 hdfs的組成 namenode 集群當中的主節點,用於管理集...