Hadoop學習總結

2021-08-20 04:07:29 字數 1292 閱讀 2028

- hadoop定義

- hadoop元件

分布式檔案系統hdfs

維護hdfs檔案系統,是檔案系統的主節點,不儲存檔案資料

記錄了客戶端的操作日誌(edits),儲存了hdfs的最新狀態

edits檔案儲存了自最後一次檢查點之前的對hdfs的操作資訊,比如說新增檔案,儲存檔案,刪除目錄等資訊。

儲存目錄為$/tmp/dfs/name/current/檢視可以使用hadoop oev -i *********xx

維護hdfs檔案的元資料,將記憶體中不經常用到的元資料儲存到硬碟中(fsimage檔案)

fsimage是儲存在磁碟上的元資料資訊的檢查點,裡邊儲存的是自最後一次檢查點之前的dhfs檔案目錄和檔案的序列化資訊

datanode資料節點

以資料塊為單位儲存資料

資料儲存的目錄由hadoop.tmp.dir決定

secondary namenode第二名稱節點

主要是合併日日誌

日誌合併過程

分布式計算yarn``mapreduce

resourcemanager(資源管理器)

接受客戶端的請求:執行任務

分配任務資源

分配任務

nodemanager(節點管理器,執行mapreduce任務)

從datanode獲取資料,執行任務

rpm解壓,預設的安裝目錄是/usr/lib/hadoop/

rpm -ivh hadoop-2.6.0+cdh5.7.0+1280-1.cdh5.7.0.p0.92.el7.x86_64.rpm --nodeps/usr/lib/hadoop/lib/native目錄拷貝到$/lib下,然後在$/bin下執行:

hadoop hadoop checknative

hadoop學習總結

1 sbin目錄 存放啟動或停止hadoop相關服務的指令碼 2 bin目錄 存放對hadoop相關服務 hdfs,yarn 進行操作的指令碼 3 etc目錄 hadoop的配置檔案目錄,存放hadoop的配置檔案 4 share目錄 存放hadoop的依賴jar包和文件,文件可以被刪除掉 5 li...

hadoop學習問題總結

1 找到問題的原因 sequencefile時連線不上錯誤,一直以為是集群沒有搭建成功,執行其他程式卻沒有問題,確定是程式本身的問題。2 hadoop streaming babel不能處理連續的兩個由sequencefile生成的檔案,一直不知道是什麼原因,將sequence用cat匯出時,又上網...

學習hadoop總結(1)

經過了痛苦的一段時間,現在終於發現了,自己原來也是可以走進大資料的殿堂的,不說別的,就拿命令列來說,個人是比較上心的,比如有一些命令總是忘記,就會一遍一遍的找到練習,然後再重複之前的操作,來來回回不下幾十次。總結如下 資料節點是檔案系統中真正儲存資料的地方。從元資料節點 secondary name...