雲計算HDFS1 0解析

2021-12-30 10:54:05 字數 2061 閱讀 4894

雲計算hdfs1.0解析。

1、本質hdfs(hadoop distributed?file?system) 是一種適合執行在通用檔案上的分布式檔案系統架構圖:2、特點

儲存並管理pb資料

處理非結構化資料

高度容錯

write-once-read-many訪問模式(無資料一致性問題)不適合做

儲存小檔案(不建議)

大量隨機讀(不建議)

需要對檔案進行修改(不支援)

多使用者寫入(不支援)3、組成部分

namenode :主節點,只允許有乙個

secondarynamenode:檢查點節點,助手節點

datanode:從節點,可以有多個namenode

作用管理著檔案系統命名空間

維護著檔案系統樹中的所有檔案和目錄

在記憶體中儲存元資料

namenode 儲存源資訊的種類有

檔名目錄名和它們之間的層級關係

檔案目錄的所有者及其許可權

每個檔案塊的名及檔案由哪些塊組成

元資料儲存在記憶體中

namenode 元資訊並不包含每個塊的位置資訊

儲存檔案、block、datanode之間的對映關係

單點問題

全hadoop系統只有乙個namenode

兩種解決方案

將hadoop元資料寫到本地同時,在實施同步到乙個遠端掛載的網路檔案系統

執行乙個secondarynamenode (定時更新 fsimage,edits 檔案 重啟時namenode載入最新資訊 -當然也會有一定延遲)secondarynamenode

作用元資訊持久化到磁碟

存放元資訊的檔案是fsimage

存放對元資訊操作的檔案是edits

定時到namenode上獲取最新edit logs 並更新到fsimage(secondarynamenode 自己的fsimage)

一旦有了新的fsimage會拷貝到namenode中,下次namenode重啟時減少重啟時間datanode

作用負責儲存資料塊,負責為系統客戶端提供資料塊的讀寫服務

根據namenode的指示進行,建立,刪除,複製等操作

心跳機制,定期報告檔案塊列表資訊

datanode之間進行通訊,塊的副本處理

block

hdfs讀寫的基本單位,預設64m,磁碟塊512b

塊增大,可以減少定址時間,檔案傳輸時間

塊過大,會導致整體任務資料過小,降低任務處理速度三個策略

機架感知策略第乙個副本:放在客戶端相同的節點上,(如果客戶端是集群外的一台機器,則隨機算節點,系統會調算太忙太滿的節點)第二個副本:放在不同的機架上第三個副本:放在與第二個節點相同機架但不同節點上

distance(/d1/r1/h1,/d1/r1/h1)=0 相同的datanode

distance(/d1/r1/h1,/d1/r1/h3)=2 同一rack下的不同datanode

distance(/d1/r1/h1,/d1/r2/h5)=2 同一idc下的不同datanode

distance(/d1/r1/h1,/d2/r3/h6)=2 不同idc下的不同datanode

資料完整性校驗

不希望在儲存和處理資料時丟失或損壞任何資料

hdfs 會對寫入的資料計算校驗和,並在讀取資料時驗證校驗和

兩種檢驗方法:

– 校驗和 ? 檢測損壞資料的常用方法是在第一次進行系統時計算資料的校驗和,在通道傳輸過程中,如果新生成的校驗和 不完全匹配原始的校驗和,那麼資料就會被認為是被損壞的。

– 資料塊檢測程式datablockscanner ? 在datanode節點上開啟乙個後台執行緒,來定期驗證儲存在它上所有塊,這個是防止物理介質出現損減情況而 造成的資料損壞。

容錯可靠性措施

乙個名字節點和多個資料節點 ? 資料複製(冗餘機制)

存放的位置(機架感知策略)

故障檢測

資料節點

心跳包(檢測是否宕機)

快報告(安全模式下檢測)

資料完整性檢測(校驗和比較)

名字節點(日誌檔案,映象檔案)

空間**機制 – trash目錄

雲計算Shard 分片集群解析

要構建乙個 mongodb sharding cluster,需要三種角色 shard server 即儲存實際資料的分片,每個shard可以是乙個mongod例項,也可以是一組mongod例項構成的replication set。為了實現每個shard內部的auto failover 自動故障切換...

雲計算HDFS的讀流程和寫流程

雲計算hdfs的讀流程和寫流程。1 寫流程 如上 client表示客戶端,namenode為主,datanode為從,要儲存的資料為data 1 客戶端向namenode發起請求,需要儲存資料data 2 因為namenode中是記錄了所有datanode的相關資訊的,而資料最終要儲存的地方就是da...

雲計算時代的網域名稱解析

近日,以 可信中國雲,未來新生態 為主題的2014可信雲服務大會在北京召開。大會正式發布了第一批通過 可信雲服務認證 的雲服務名單,這不僅將為使用者選擇雲服務提供切實可信的依據,同時也為建立可信的雲計算生態系統奠定基礎,推動我國雲計算健康發展。雲計算發展如火如荼 雲計算是一種基於網際網路的計算方式,...