Hadoop HBase物理模型

包含訪問hbase的介面並維護cache，加快對hbase的訪問

zookeeper

保證任何時候，集群中只有乙個master 存貯所有region的定址入口。實時監控region server的上線和下線資訊。並實時通知給master 儲存hbase的schema和table元資料

hmaster

總控節點為region server分配region 負責region server的負載均衡發現失效的region server並重新分配其上的region 管理使用者對table的增刪改查操作

hregionserver

假設乙個表有一億行，資料量很大，根據分布式的思想，我們把它分成幾個區域。假設分成10個區域，則每個區域有1千萬行。我們把每個區域稱之為乙個region。每個hregionserver管理許多region。 region server維護region，處理對這些region的io請求 region server負責split在執行過程中變得過大的region

zookeeper儲存所有region的入口，client通過訪問它獲得-root-表的的location資訊，接著通過-root-表獲得.meta.表region資訊，最後再通過.meta.表獲得使用者表的region資訊。client會快取這些資訊，這樣下次就可以直接獲得使用者表的region資訊。

如上圖所示，當client連上hreigonserver後，後者會開啟相應的hregion物件，為每個hcolumefamily建立store例項，每個store例項有乙個memstore，乙個或多個storefile，storefile是hfile輕量級的包裝。

寫資料過程

首先是把log寫入到hlog中，hlog是標準的hadoop sequence file，由於log資料量小，而且是順序寫，速度非常快；同時把資料寫入到記憶體memstore中，成功後返回給client，所以對client來說，hbase寫的速度非常快，因為資料只要寫入到記憶體中，就算成功了。接著檢查memstore是否已滿，如果滿了，就把記憶體中的memstore flush到磁碟上，形成乙個新的storefile。當storefile檔案的數量增長到一定閾值後，系統會進行合併（compact），在合併過程中會進行版本合併和刪除工作，形成更大的storefile。當storefile大小超過一定閾值後，會把當前的region分割為兩個（split），並由hmaster分配到相應的hregionserver，實現負載均衡

讀資料過程

Hadoop HBase物理模型

概念模型，邏輯模型，物理模型

概念模型，邏輯模型，物理模型

Hadoop HBase的基本操作

Hadoop HBase物理模型

概念模型，邏輯模型，物理模型

概念模型，邏輯模型，物理模型

Hadoop HBase的基本操作

相關推薦