使用本地硬體模擬乙個6臺節點的集群。
規劃環境1.1.1.1 網路設定vmware workstation 11.1.4
6臺虛擬機器
centos-7-x86_64-everything-1511.iso
jdk1.7.0_80_x64
hadoop-2.7.3
為真實模擬生產環境,集群不聯外網
設定虛擬機器網路模式為主機模式(host-only)
檢視到vmnet1的子網ip
檢視本機的vmnet1的ip,將vmnet1改為靜態ip
cd /etc/sysconfig/network-scripts
vi ifcfg-eno16777736
//centos7的配置比較特殊
修改ip配置專案
bootproto=no //dhcp設定
onboot=yes
ipaddr=192.168.44.101 //規劃的本機ip
gateway=192.168.44.1 //宿主機的vmnet1位址
關閉centos防火牆
systemctl stop firewalld.service //停止firewall
systemctl disable firewalld.service //禁止firewall開機啟動
//centos7的防火牆不是iptables
ping測試
hostnamectl status //centos7使用hostnamectl工具來控制主機名
hostnamectl set-hostname "server01" //分別設定主機名
vi /etc/hosts //設定區域網dns
192.168.44.101 server01
192.168.44.102 server02
192.168.44.103 server03
192.168.44.104 server04
192.168.44.105 server05
192.168.44.106 server06
1.1.1.2 使用者配置
建立使用者組/使用者/設定密碼
groupadd hadoops
useradd -g hadoops hadoop
passwd hadoop
//密碼設定為hadoophadoop 後續的操作盡量用hadoop避免使用root使用者
1.1.1.3 ssh免密碼設定
使用rsa對稱加密達到免密碼ssh,每個節點分別生成一對金鑰,並且分別維護乙個信任列表,以a→b為例
第1步:a主機,定位到/home/hadoop
ssh-keygen -t rsa -f ~/.ssh/id_rsa //會在.ssh下生成id_rsa、id_rsa.pub兩個檔案
cat /home/hadoop/.ssh/id_rsa.pub >> /home/hadoop/.ssh/authorized_keys
第2步:b主機,建立/home/hadoop/.ssh/authorized_keys
,儲存信任列表,通常情況是直接用a分發公鑰
scp /home/hadoop/.ssh/id_rsa.pub hadoop@server02
:/home/hadoop/.ssh/authorized_keys
//執行的時候會要求輸入金鑰 建議輸入hadoop
第3步:集群中的主機兩兩配置,可以先統一生成公鑰,而後儲存到乙個檔案裡再分發。
第4步:修改檔案許可權
chmod
700 /home/.ssh
cd /home/.ssh
chmod
600 *
//許可權設定沒有找到有說服力的原因,不能太高也不能太低
第5步:儲存金鑰
ssh-agent bash //如ssh-add報錯could not
open a connection to your authentication agent.就先執行該命令
ssh-add
《Hadoop權威指南》閱讀記錄2
第3章 hadoop分布式檔案系統 hadoop distributed filesystem 以流式資料訪問模式來儲存超大檔案 hadoop的構建思路 一次寫入,多次讀取時最高效的訪問模式,讀取整個資料集的時間延遲,比讀取第一條記錄的時間延遲更重要。目前,寫操作總是將資料新增在檔案的末尾,他不支援...
Hadoop 權威指南學習筆記(四)
mapreduce 來編寫程式,有乙個特定的流程。首先寫 map 函式和 reduce 函式,最好使用單元測試來確保函式的執行符合預期。然後,寫乙個驅動程式來執行作業,要看這個驅動程式是否可以執行,可以從本地 ide 用乙個小的資料集來執行它。如果驅動程式不能正確執行,就用本地 盡可能正確地處理這些...
Hadoop 權威指南學習筆記(七)
計數器是一種收集作業統計資訊的有效手段,用於質量控制或應用級統計。計數器還可輔助診斷系統故障。hadoop 為每個作業維護若干內建計數器 以描述該作業的各項指標。在任務執行過程中,每個作業的所有任務的結果都會被任務計數器聚集起來。計數器由其關聯任務維護,井定期傳到 tasktracker 再由 ta...