資料採集引擎 -> sqoop、flume
zookeeper:實現hadoop的ha
oozie:工作流引擎
第一階段:scala程式語言
第二階段:spark core -> 基於記憶體、資料的計算
第三階段:spark sql -> 類似於mysql 的sql語句
第四階段:spark streaming ->進行流式計算:比如:自來水廠
1、硬碟不夠大:多幾塊硬碟,理論上可以無限大
2、資料不夠安全:冗餘度,hdfs預設冗餘為3 ,用水平複製提高效率,傳輸按照資料庫為單位:hadoop1
.x 64m,hadoop2
.x 128m
![image.png](
大資料基礎Hadoop 2 x入門
儲存和分析網路資料 三大元件 hdfs yarn common hive 蜜蜂 通過使用sql語句來執行hadoop任務 hbase 儲存結構化資料的分布式資料庫 zookeeper 維護節點狀態 使用docker安裝 docker run i t p 50070 50070 p 9000 9000...
大資料入門Hadoop安裝
偽分布式 就是所有的程式都在一台主機上跑,完全是分布式的工作模式,但是不是真正的分布式 先上傳hadoop的安裝包到伺服器上去 home hadoop 注意 hadoop2.x的配置檔案 hadoop home etc hadoop 偽分布式需要修改5個配置檔案 3.1配置hadoop hdfs w...
大資料零基礎入門學習之Hadoop技術優缺點
hadoop的優點 1 hadoop具有按位儲存和處理資料能力的高可靠性。2 hadoop通過可用的計算機集群分配資料,完成儲存和計算任務,這些集群可以方便地擴充套件到數以千計的節點中,具有高擴充套件性。3 hadoop能夠在節點之間進行動態地移動資料,並保證各個節點的動態平衡,處理速度非常快,具有...