雲計算hdfs1.0解析。
1、本質hdfs(hadoop distributed?file?system) 是一種適合執行在通用檔案上的分布式檔案系統架構圖:2、特點
儲存並管理pb資料
處理非結構化資料
高度容錯
write-once-read-many訪問模式(無資料一致性問題)不適合做
儲存小檔案(不建議)
大量隨機讀(不建議)
需要對檔案進行修改(不支援)
多使用者寫入(不支援)3、組成部分
namenode :主節點,只允許有乙個
secondarynamenode:檢查點節點,助手節點
datanode:從節點,可以有多個namenode
作用管理著檔案系統命名空間
維護著檔案系統樹中的所有檔案和目錄
在記憶體中儲存元資料
namenode 儲存源資訊的種類有
檔名目錄名和它們之間的層級關係
檔案目錄的所有者及其許可權
每個檔案塊的名及檔案由哪些塊組成
元資料儲存在記憶體中
namenode 元資訊並不包含每個塊的位置資訊
儲存檔案、block、datanode之間的對映關係
單點問題
全hadoop系統只有乙個namenode
兩種解決方案
將hadoop元資料寫到本地同時,在實施同步到乙個遠端掛載的網路檔案系統
執行乙個secondarynamenode (定時更新 fsimage,edits 檔案 重啟時namenode載入最新資訊 -當然也會有一定延遲)secondarynamenode
作用元資訊持久化到磁碟
存放元資訊的檔案是fsimage
存放對元資訊操作的檔案是edits
定時到namenode上獲取最新edit logs 並更新到fsimage(secondarynamenode 自己的fsimage)
一旦有了新的fsimage會拷貝到namenode中,下次namenode重啟時減少重啟時間datanode
作用負責儲存資料塊,負責為系統客戶端提供資料塊的讀寫服務
根據namenode的指示進行,建立,刪除,複製等操作
心跳機制,定期報告檔案塊列表資訊
datanode之間進行通訊,塊的副本處理
block
hdfs讀寫的基本單位,預設64m,磁碟塊512b
塊增大,可以減少定址時間,檔案傳輸時間
塊過大,會導致整體任務資料過小,降低任務處理速度三個策略
機架感知策略第乙個副本:放在客戶端相同的節點上,(如果客戶端是集群外的一台機器,則隨機算節點,系統會調算太忙太滿的節點)第二個副本:放在不同的機架上第三個副本:放在與第二個節點相同機架但不同節點上
distance(/d1/r1/h1,/d1/r1/h1)=0 相同的datanode
distance(/d1/r1/h1,/d1/r1/h3)=2 同一rack下的不同datanode
distance(/d1/r1/h1,/d1/r2/h5)=2 同一idc下的不同datanode
distance(/d1/r1/h1,/d2/r3/h6)=2 不同idc下的不同datanode
資料完整性校驗
不希望在儲存和處理資料時丟失或損壞任何資料
hdfs 會對寫入的資料計算校驗和,並在讀取資料時驗證校驗和
兩種檢驗方法:
– 校驗和 ? 檢測損壞資料的常用方法是在第一次進行系統時計算資料的校驗和,在通道傳輸過程中,如果新生成的校驗和 不完全匹配原始的校驗和,那麼資料就會被認為是被損壞的。
– 資料塊檢測程式datablockscanner ? 在datanode節點上開啟乙個後台執行緒,來定期驗證儲存在它上所有塊,這個是防止物理介質出現損減情況而 造成的資料損壞。
容錯可靠性措施
乙個名字節點和多個資料節點 ? 資料複製(冗餘機制)
存放的位置(機架感知策略)
故障檢測
資料節點
心跳包(檢測是否宕機)
快報告(安全模式下檢測)
資料完整性檢測(校驗和比較)
名字節點(日誌檔案,映象檔案)
空間**機制 – trash目錄
雲計算Shard 分片集群解析
要構建乙個 mongodb sharding cluster,需要三種角色 shard server 即儲存實際資料的分片,每個shard可以是乙個mongod例項,也可以是一組mongod例項構成的replication set。為了實現每個shard內部的auto failover 自動故障切換...
雲計算HDFS的讀流程和寫流程
雲計算hdfs的讀流程和寫流程。1 寫流程 如上 client表示客戶端,namenode為主,datanode為從,要儲存的資料為data 1 客戶端向namenode發起請求,需要儲存資料data 2 因為namenode中是記錄了所有datanode的相關資訊的,而資料最終要儲存的地方就是da...
雲計算時代的網域名稱解析
近日,以 可信中國雲,未來新生態 為主題的2014可信雲服務大會在北京召開。大會正式發布了第一批通過 可信雲服務認證 的雲服務名單,這不僅將為使用者選擇雲服務提供切實可信的依據,同時也為建立可信的雲計算生態系統奠定基礎,推動我國雲計算健康發展。雲計算發展如火如荼 雲計算是一種基於網際網路的計算方式,...