- hadoop定義
- hadoop元件
分布式檔案系統hdfs
維護hdfs檔案系統,是檔案系統的主節點,不儲存檔案資料
記錄了客戶端的操作日誌(edits),儲存了hdfs的最新狀態
edits檔案儲存了自最後一次檢查點之前的對hdfs的操作資訊,比如說新增檔案,儲存檔案,刪除目錄等資訊。
儲存目錄為$/tmp/dfs/name/current/
檢視可以使用hadoop oev -i *********xx
維護hdfs檔案的元資料,將記憶體中不經常用到的元資料儲存到硬碟中(fsimage檔案)
fsimage是儲存在磁碟上的元資料資訊的檢查點,裡邊儲存的是自最後一次檢查點之前的dhfs檔案目錄和檔案的序列化資訊
datanode資料節點
以資料塊為單位儲存資料
資料儲存的目錄由hadoop.tmp.dir決定
secondary namenode第二名稱節點
主要是合併日日誌
日誌合併過程
分布式計算yarn``mapreduce
resourcemanager(資源管理器)
接受客戶端的請求:執行任務
分配任務資源
分配任務
nodemanager(節點管理器,執行mapreduce任務)
從datanode獲取資料,執行任務
rpm解壓,預設的安裝目錄是/usr/lib/hadoop/
rpm -ivh hadoop-2.6.0+cdh5.7.0+1280-1.cdh5.7.0.p0.92.el7.x86_64.rpm --nodeps
將/usr/lib/hadoop/lib/native
目錄拷貝到$/lib
下,然後在$/bin
下執行:
hadoop hadoop checknative
hadoop學習總結
1 sbin目錄 存放啟動或停止hadoop相關服務的指令碼 2 bin目錄 存放對hadoop相關服務 hdfs,yarn 進行操作的指令碼 3 etc目錄 hadoop的配置檔案目錄,存放hadoop的配置檔案 4 share目錄 存放hadoop的依賴jar包和文件,文件可以被刪除掉 5 li...
hadoop學習問題總結
1 找到問題的原因 sequencefile時連線不上錯誤,一直以為是集群沒有搭建成功,執行其他程式卻沒有問題,確定是程式本身的問題。2 hadoop streaming babel不能處理連續的兩個由sequencefile生成的檔案,一直不知道是什麼原因,將sequence用cat匯出時,又上網...
學習hadoop總結(1)
經過了痛苦的一段時間,現在終於發現了,自己原來也是可以走進大資料的殿堂的,不說別的,就拿命令列來說,個人是比較上心的,比如有一些命令總是忘記,就會一遍一遍的找到練習,然後再重複之前的操作,來來回回不下幾十次。總結如下 資料節點是檔案系統中真正儲存資料的地方。從元資料節點 secondary name...