Hadoop知識彙總

hadoop的兩大功能：海量資料儲存和海量資料分析

1、hdfs：分布式檔案系統海量資料儲存

3、yarn：資源排程管理集群

hdfs工作機制：基於namenode和datanode

1、namenode:響應客戶端的請求；負責維護整個hdfs檔案系統的目錄樹，以及每乙個路徑（檔案）所對應的block塊資訊（block的id，及所在的datanode伺服器）；元資料的管理

2、datanode：儲存管理使用者的檔案資料；定期向namenode匯報自己所持有的block資訊(通過心跳機制rpc)

namenode安全模式：1）、當nameonde發現檔案block丟失的數量達到乙個配置的門限時，就會進入安全模式，它在這個模式下等待datanode向它匯報block資訊；2）、

在安全模式下，namenode可以提供元資料查詢的功能，但是不能修改；

hdfs讀流程：1、跟

namenode

通訊查詢元資料，找到檔案塊所在的

datanode

伺服器

2、挑選一台

datanode

（就近原則，然後隨機）伺服器，請求建立

socket流

3、datanode

開始傳送資料（從磁碟裡面讀取資料放入流，以

packet

為單位來做校驗） 4

、客戶端以

packet

為單位接收，現在本地快取，然後寫入目標檔案

hdfs寫流程：

1、根namenode通訊請求上傳檔案，namenode檢查目標檔案是否已存在，父目錄是否存在

2、namenode返回是否可以上傳

3、client請求第乙個 block該傳輸到哪些datanode伺服器上

4、namenode返回3個datanode伺服器abc

5、client請求3臺dn中的一台a上傳資料（本質上是乙個rpc呼叫，建立pipeline），a收到請求會繼續呼叫b，然後b呼叫c，將真個pipeline建立完成，逐級返回客戶端

6、client開始往a上傳第乙個block（先從磁碟讀取資料放到乙個本地記憶體快取），以packet為單位，a收到乙個packet就會傳給b，b傳給c；a每傳乙個packet會放入乙個應答佇列等待應答

7、當乙個block傳輸完成之後，client再次請求namenode上傳第二個block的伺服器。

hadoop壓縮彙總

可以減少對集群磁碟空間的占用，減小平行計算資料傳輸時網路io 1.1安裝lzo 2.06.tar.gz 1.2步驟解壓進入lzo 2.06.目錄 configure make make install 1.3報錯處理 yum install gcc c 1.5然後利用hadoop 的編譯環境，進...

hadoop 相關知識

hadoop 2.x common hdfs 儲存資料 namenode 儲存檔案系統的元資料，命名空間namespace datanode 儲存資料 secondarynamenode 輔助namenode工作週期性的合併倆個檔案 yarn hadoop 作業系統 data 資料作業系統 con...

Hadoop學習三 Hadoop入門知識

hadoop主要由namenode和datanode組成。客戶機通過與namenode和datanode的互動訪問檔案系統。對namenode的容錯非常重要。hadoop集群的配置設定好三颱虛擬機器，分別是node1,node2和node3。設定node1為namenode,在node1的core...

Hadoop知識彙總

hadoop壓縮彙總

hadoop 相關知識

Hadoop學習 三 Hadoop入門知識

相關推薦

Hadoop學習三 Hadoop入門知識