1000臺和1臺搭建沒有區別:
主要是流程和zookeeper
先搭建一台,然後scp分發就好了
ha,兩個namenode,4個journalnode
hdfs的持久化資料:
edis:存放在外部的集群中
apache hadoop 不足之處
版本管理混亂
部署過程繁瑣、公升級過程複雜
相容性差
安全性低
hadoop 發行版
apache hadoop
cloudera』s distribution including apache hadoop(cdh)
hortonworks data platform (hdp)
mapr
emrcdh有4.x,5.x
clouder公司:
cdh是乙個包,裡邊包含很多的版本號。
用一台格式化
另一台同步過去。
zkfc將人解耦出來。
zkfc啟動,首先需要
用zkfc格式化zookeeper
4臺和1000臺沒有什麼區別,主要是一些細節步驟,依賴關係。
1000臺已填就能搭建完成,只是需要拷貝,浪費時間。
hadoop發行版
linux:centos
genolinux
核心只有乙個,一堆軟體。
cdh:乙個包,由cloudera公司提供的一些版本和號
hbase剛出2.0版本,之前是1.2,我們學習的是0.98
hive現學習的是1.2的版本。
hdp:hortonworks data platform
國內大資料平台:華為,星環,有政策保護,把開源的東西拿過來包裝,包裝成的一些技術,
比如hbase索引,二級快取,
國外:cloudera公司
大資料報裡邊包含著大資料技術。
hive中底層是mapreduce,頻繁的io操作
hive是接受sql的東西
hive的兩個功能:
元資料管理
sql直接引擎,計算
mapreduce是基於擦盤i/o迭代的。
hive就是留下metastore,只需要記下表就行,因為它把檔案轉換成表。
hadoop的生態圈:
hadoop專案:
yarn:支援資源管理
hdfs:支援記憶體,
mapreduce:支援離線計算
common:
資料搜尋
cloudera』s distribution including apache hadoop(cdh)
cdh:cloudera manager:管理硬體裸機,解決後續集群的複雜度的問題。靜態包,把大資料的所有軟體仍在裡邊了。
cm:cloudera manager:集群的管理,部署裡邊和啟動停止的管理工作
cms:執行期的所有硬體軟體管理
cloudera manager公司提供三個東西:
cdh:靜態包,把大資料的所有軟體仍在裡邊了。
cm:cloudera manager:集群的管理,部署裡邊和啟動停止的管理工作
cms:cloudera managementservice:執行期的所有硬體軟體軟體等所有情況的報警等的統計。統計報表和預警
大資料平台一般不能訪問外網
cdh 差異 CDH5和6的區別
cdh6相對於cdh5是一次各個元件的大版本公升級,要理解大版本更新,這裡先解釋一下hadoop相關元件的版本說明。比如版本號是x.y.z,z代表的一般是maintenance version或patch version,這種版本公升級主要修復bug,不改動api,也不涉及新的功能,y代表的是min...
TCP IP概述學習
掃盲常識 1.構建網際網路最簡單的方法是把兩個貨多個網路通過路由器進行連線的 路由器的好處是為不同型別的物理網路提供連線,如乙太網 令牌網。連線網路的另乙個途徑是使用網橋。網橋是在鏈路層上對網路進行互連,而路由則是在網路層上對網路進行互連。網橋使得多個區域網 lan 組合在一起,這樣對上層來說就好像...
深度學習概述
深度學習概述 1.深度學習定義 深度學習 deep learning 起源於人工神經網路,它的定義 通過組合低層特徵形成更加抽象的高層特徵或類別,從而從大量的輸入資料中學習有效特徵表示,並把這些特徵用於分類 回歸和資訊檢索的一種技術。何謂為深度 網路學習得到的函式中,非線性運算組合水平的數量。2深度...