大資料入門之Hadoop基礎學習

資料採集引擎 -> sqoop、flume

zookeeper：實現hadoop的ha

oozie：工作流引擎

第一階段：scala程式語言第二階段：spark core -> 基於記憶體、資料的計算第三階段：spark sql -> 類似於mysql 的sql語句

第四階段：spark streaming ->進行流式計算：比如：自來水廠

1、硬碟不夠大：多幾塊硬碟，理論上可以無限大 2、資料不夠安全：冗餘度，hdfs預設冗餘為3 ，用水平複製提高效率，傳輸按照資料庫為單位：hadoop1 .x 64m，hadoop2

.x 128m

![image.png](

大資料基礎Hadoop 2 x入門

儲存和分析網路資料三大元件 hdfs yarn common hive 蜜蜂通過使用sql語句來執行hadoop任務 hbase 儲存結構化資料的分布式資料庫 zookeeper 維護節點狀態使用docker安裝 docker run i t p 50070 50070 p 9000 9000...

大資料入門Hadoop安裝

偽分布式就是所有的程式都在一台主機上跑,完全是分布式的工作模式,但是不是真正的分布式先上傳hadoop的安裝包到伺服器上去 home hadoop 注意 hadoop2.x的配置檔案 hadoop home etc hadoop 偽分布式需要修改5個配置檔案 3.1配置hadoop hdfs w...

大資料零基礎入門學習之Hadoop技術優缺點

hadoop的優點 1 hadoop具有按位儲存和處理資料能力的高可靠性。2 hadoop通過可用的計算機集群分配資料，完成儲存和計算任務，這些集群可以方便地擴充套件到數以千計的節點中，具有高擴充套件性。3 hadoop能夠在節點之間進行動態地移動資料，並保證各個節點的動態平衡，處理速度非常快，具有...

大資料入門之Hadoop基礎學習

大資料基礎Hadoop 2 x入門

大資料入門Hadoop安裝

大資料零基礎入門學習之Hadoop技術優缺點

相關推薦