hadoop的兩大功能:海量資料儲存和海量資料分析
1、hdfs:分布式檔案系統海量資料儲存
3、yarn:資源排程管理集群
hdfs工作機制:基於namenode和datanode
1、namenode:響應客戶端的請求;負責維護整個hdfs檔案系統的目錄樹,以及每乙個路徑(檔案)所對應的block塊資訊(block的id,及所在的datanode伺服器);元資料的管理
2、datanode:儲存管理使用者的檔案資料;定期向namenode匯報自己所持有的block資訊(通過心跳機制rpc)
namenode安全模式:1)、當nameonde發現檔案block丟失的數量達到乙個配置的門限時,就會進入安全模式,它在這個模式下等待datanode向它匯報block資訊;2)、
在安全模式下,namenode可以提供元資料查詢的功能,但是不能修改;
hdfs讀流程:1、跟
namenode
通訊查詢元資料,找到檔案塊所在的
datanode
伺服器
2、挑選一台
datanode
(就近原則,然後隨機)伺服器,請求建立
socket流
3、datanode
開始傳送資料(從磁碟裡面讀取資料放入流,以
packet
為單位來做校驗) 4
、客戶端以
packet
為單位接收,現在本地快取,然後寫入目標檔案
hdfs寫流程:
1、根namenode通訊請求上傳檔案,namenode檢查目標檔案是否已存在,父目錄是否存在
2、namenode返回是否可以上傳
3、client請求第乙個 block該傳輸到哪些datanode伺服器上
4、namenode返回3個datanode伺服器abc
5、client請求3臺dn中的一台a上傳資料(本質上是乙個rpc呼叫,建立pipeline),a收到請求會繼續呼叫b,然後b呼叫c,將真個pipeline建立完成,逐級返回客戶端
6、client開始往a上傳第乙個block(先從磁碟讀取資料放到乙個本地記憶體快取),以packet為單位,a收到乙個packet就會傳給b,b傳給c;a每傳乙個packet會放入乙個應答佇列等待應答
7、當乙個block傳輸完成之後,client再次請求namenode上傳第二個block的伺服器。
hadoop壓縮彙總
可以減少對集群磁碟空間的占用,減小平行計算資料傳輸時網路io 1.1安裝lzo 2.06.tar.gz 1.2步驟 解壓 進入lzo 2.06.目錄 configure make make install 1.3報錯處理 yum install gcc c 1.5然後利用hadoop 的編譯環境,進...
hadoop 相關知識
hadoop 2.x common hdfs 儲存資料 namenode 儲存檔案系統的元資料,命名空間namespace datanode 儲存資料 secondarynamenode 輔助namenode工作 週期性的合併倆個檔案 yarn hadoop 作業系統 data 資料作業系統 con...
Hadoop學習 三 Hadoop入門知識
hadoop主要由namenode和datanode組成。客戶機通過與namenode和datanode的互動訪問檔案系統。對namenode的容錯非常重要。hadoop集群的配置 設定好三颱虛擬機器,分別是node1,node2和node3。設定node1為namenode,在node1的core...