HDFS原理了解 學習筆記

2021-08-16 05:55:58 字數 1882 閱讀 4030

hdfs:hadoop distributed file system(hadoop分布式檔案系統)

分布式,感覺好厲害的樣子啊,有網路檔案系統,有本地檔案系統,現在又多了乙個分布式的檔案系統。之所以是要分布式,是資料要放到多個主機上面去。放的東西在集群中,就是分布式啦!

想要了解這個東東,先找一張原理圖瞅瞅。

看不懂沒關係,繼續往下瞅就是了。

每個一學習的模組要搞懂乙個點內容,學完這個就需要對下面這些名詞非常的了解。namenodedatanode

冷備份(sendarynamenode)

namenode又稱為名稱節點,是負責管理分布式檔案系統的命名空間(namespace),儲存了兩個核心的資料結構,即fsimage和editlog。 你可以把它理解成大管家,它不負責儲存具體的資料。

為啥會拆成兩個呢? 主要是因為fsimage這個檔案會很大的,多了之後就不好操作了,就拆分成兩個。把後續增量的修改放到editlog中, 乙個fsimage和乙個editlog 進行合併會得到乙個新的fsimage.

因為它是系統的大管家,如果這個玩意壞了,丟失了怎麼辦。就相當於你系統的引導區壞了。那就玩完了。整個檔案系統就崩潰了。 所以,這個重要的東西,需要備份。這個時候就產生了乙個叫sendarynamenode的節點用來做備份,它會定期的和namenode就行通訊來完成整個的備份操作。具體的操作如下:

除了這個自帶的備份操作,還需要進行人工的備份,把乙份fsimage到多個地方進行備份,萬一namenode的節點壞了呢。

datanode資料節點,用來具體的儲存檔案,維護了blockid 與 datanode本地檔案的對映。 需要不斷的與namenode節點通訊,來告知其自己的資訊,方便nameode來管控整個系統。

這裡還提到乙個的概念,就想linux本地檔案系統中也有塊的概念一樣,這裡也有塊的概念。這裡的塊會預設是128m 每個塊都會預設儲存三份

有問題,就得改。1.0上有很多的毛病,為了修復這些問題才出了2.0

* 單點故障問題

* 不可以水平擴充套件(是否可以通過縱向擴充套件來解決?)

* 系統整體效能受限於單個名稱節點的吞吐量

* 單個名稱節點難以提供不同程式之間的隔離性

* hdfs ha是熱備份,提供高可用性,但是無法解決可擴充套件性、系統效能和隔離性

解決上面這些問題所使用的手段就是熱備份federation

多個命名空間。為了處理乙個namenode的侷限性,搞了幾個namanode大家一起來管理。就像程式設計中的命名空間一樣

hdfs federation設計可解決單名稱節點存在的以下幾個問題:

1. hdfs集群擴充套件性。多個名稱節點各自分管一部分目錄,使得乙個集群可以擴充套件到更多節點,不再像hdfs1.0中那樣由於記憶體的限制制約檔案儲存數目

2. 效能更高效。多個名稱節點管理不同的資料,且同時對外提供服務,將為使用者提供更高的讀寫吞吐率

3. 良好的隔離性。使用者可根據需要將不同業務資料交由不同名稱節點管理,這樣不同業務之間影響很小

網路學習筆記五 HTTP 原理了解

http 是乙個無狀態的協議。無狀態是指客戶機 web 瀏覽器 和伺服器之間不需要建立持久的連線,這意味著當乙個客戶端向伺服器端發出請求,然後伺服器返回響應 response 連線就被關閉了,在服 務器端不保留連線的有關資訊.http 遵循請求 request 應答 response 模型。客戶機 ...

hadoop學習筆記 HDFS原理

文章內容摘自書籍,網際網路的部落格的一些集合和個人的理解。hdfs原理 hadoop提供了可靠的共享儲存和分析的系統,hdfs實現儲存,mapreduce實現分析處理,這兩部分是hadoop的核心,由於hdfs是為了高資料吞吐量而優化的,是以高時間延遲為代價,所以要求低延遲的資料訪問應用不適合在hd...

運營筆記 是時候了解蜘蛛爬取原理了!揭秘收錄難題!

很多人在做seo的時候,搞不清蜘蛛爬取的原理或者對收錄索引都搞不清關係,這篇文章主要針對實戰來講解蜘蛛和收錄的關係,不講原理,只講乾貨和經驗。首先我們提到蜘蛛可能就可能想到ip,比如以下這些 220.181.108.89專用抓取首頁ip 權重段,一般返回 是304 0 0代表未更新。220.181....