這一篇是介紹hadoop偽分布式的配置中的hadoop的配置。第一部分是hadoop1.0配置,第二部分是hadoop2.0的配置,大家可以自己選擇檢視。
linux配置可以檢視hadoop學習筆記(三)linux環境配置
hadoop的五個核心守護程序有:namenode,secondarynamenode,datanode,jobtracker,tasktracker
所以不難理解,hadoop方面的配置主要是對五個核心守護程序的配置。
cd $hadoop_home/conf/
vim core-site.xml
配置檔案如下
fs.default.name
hdfs://hostaddress:9000
hadoop.tmp.dir
/opt/data/tmp
注意快取檔案位址手動建立,可以自由配置
cd $hadoop_home/conf/
vim hdfs-site.xml
配置檔案如下
dfs.replication
1
dfs.permissions
false
cd $hadoop_home/conf/
vim masters
將localhost替換為$hostname
指定secondarynamenode位置
cd $hadoop_home/conf/
vim mapred-site.xml
檔案配置如下
mapred.jdo.tracker
hostaddress:9001
cd $hadoop_home/conf/
vim sl**es
將localhost替換為$hostname。
指定datanode和tasktracker的位置
cd $hadoop_home/conf/
vim hadoop-env.sh
啟用jdk配置,並配置到對應的jdk位置
cd $hadoop_home/bin/
hadoop namenode -format
start-dfs.sh
jps
jps檢視j**a虛擬機器執行程序,成功則顯示
jps成功顯示顯示如下
若此時存在守護程序沒有啟動的情況,通常存在兩種問題
xml配置錯誤,xml檔案修改過後,需要進行namenode formate
檔案許可權問題
檔案許可權問題需要對檔案許可權進行修改。
修改到的檔案許可權涉及到的目錄主要有:
$hadoop_home和temp目錄,若存在相關問題可以更改檔案許可權解決
基本原理和第一篇相同,所以重複的內容就不浪費時間
配置namenode位址
fs.defaultfs
hdfs:
配置副本數
dfs.replication
1
此處與hadoop1.0不同,hadoo2.0的資源排程交由yarn框架進行排程
mapreduce.framework.name
yarn
yarn是資源排程框架,詳細這邊不多做介紹
yarn.nodemanager.aux-services
mapreduce_shuffle
cd $hadoop_home/bin/
hadoop namenode -format
start-all.sh
jps
jps檢視j**a虛擬機器執行程序,成功則顯示
若此時存在守護程序沒有啟動的情況,通常存在三種問題
xml配置錯誤,xml檔案修改過後,需要進行namenode formate
檔案許可權問題
namenode在formate之後,datanode無法啟動
檔案許可權問題需要對檔案許可權進行修改。
修改到的檔案許可權涉及到的目錄主要有:
$hadoop_home和temp目錄,若存在相關問題可以更改檔案許可權解決
第三種情況,是由於datanode在建立後會儲存namenode版本號,而namenode formate之後,版本號更新,datanode的版本號無法與最新namenode版本號進行匹配,需要手動更新
預設配置位址在/temp/hadoop-username/dfs/name/current/version
以及/temp/hadoop-username/dfs/data/current/version
nameversion檔案中
clusterid=cid-9d26b796-f8bd-41ec-a829-07b3c641ae9b
dat**ersion檔案中也存在clusterid,如果不匹配,則可以進行匹配
歡迎繼續學習使用hadoop hadoop學習筆記(五)日誌系統
Hadoop學習筆記(四) HBase
hbase是乙個高可靠性 高效能 面向列 可伸縮的分布式儲存系統,它是google bigtable的開源實現,執行於hdfs檔案系統之上,利用mapreduce處理資料,使用zookeeper作為協同服務,因此可以容錯地儲存海量稀疏的資料。海量資料儲存,方便擴充套件 快速的隨機訪問,獨特的設計使得...
Hadoop學習筆記(四) Shuffle階段
1.定義 shuffle是指map任務輸出到reduce任務輸入的過程。2.目的 在hadoop集群中,大部分map任務與reduce任務在不同的節點執行。因此,reduce任務在執行時需要跨節點去獲取map的輸出結果。如果集群上有很多作業,那麼網路資源消耗會很嚴重,需要最大化減少不必要的資源。另外...
Hadoop學習筆記(四) HDFS概述
hdfs hadoop distributed file system 分布式檔案儲存系統。hdfs的架構 mapreduce的結構 namenode 是整個檔案系統的管理節點,它維護著整個檔案系統的檔案目錄樹,檔案 目錄的元資訊和每個檔案對應的資料塊列表。接收使用者的操作請求。檔案包括 fsima...