1、列式儲存資料庫
不同於傳統關聯式資料庫的行式儲存。其優勢為:
(1)、對於特定查詢,不是所有值都是必需的,可減少io。
(2)、列的資料型別相似,有利於壓縮,返回結果時降低頻寬消耗。
2、hbase 的region 和regionserver
每乙個region 只能由一台region server 載入,每一台region可以同時載入多個region。
region 大小超過限制,將會在中間鍵將其拆分成兩個大致相等的子region。region 支援離線合併。
每台regionserver 載入region數量約10-1000,每個region大小約1g-2g。
3、hbase支援單行事務
不支援跨行、跨表。
4、hbase協處理器coprocessor
coprocessor 可以在伺服器的位址空間執行來自客戶端的**,此**可以直接訪問伺服器本地的資料,用於實現輕量級批處理作業,或者使用表示式並給予各種操作來分析和彙總資料。
5、hbase的實現
hfile:資料的儲存檔案,儲存經過排序的鍵值對映結構。hfile由連續的塊組成,塊的索引資訊儲存在檔案的尾部。
hfile的預設大小為 64k 。
資料更新過程:首先寫在wal(write-ahead log . 預寫日誌)中 ,然後再寫入記憶體的memstore中 (已按照行健排序),最後移出記憶體到hfile中,hfile 會進行合併。資料從記憶體移出後,會丟棄對應已提交的日誌。
資料刪除過程:給某行作乙個刪除標記,檢索的時候跳過,而不是真正地刪除。
資料讀取過程:從 hfile 和 memstore 讀回並合併,不會用到wal。
資料恢復:若記憶體中資料在伺服器崩潰前沒有寫入到磁碟,使用wal進行恢復。
hfile 的合併分為 minor合併 和 major合併。
minor合併:將多個小檔案重寫為大檔案,乙個多路歸併的過程。
major合併:能掃瞄所有鍵值對,順序重寫資料,並略過做了刪除標記、版本號過期、生存時間到期的資料。
6、zookeeper 作用
a、為region server 協調分配region
b、通過心跳,發現可用伺服器,跟蹤機器故障和網路分割槽
c、確保只有乙個hmaster執行
7、hmaster 作用
負載均衡,集群管理,元資料管理
HBase 筆記 1 簡介
1 列式儲存資料庫 不同於傳統關聯式資料庫的行式儲存。其優勢為 1 對於特定查詢,不是所有值都是必需的,可減少io。2 列的資料型別相似,有利於壓縮,返回結果時降低頻寬消耗。2 hbase 的region 和regionserver 每乙個region 只能由一台region server 載入,每...
HBase學習筆記(一) 《HBase簡介》
hbase簡介 1 hbase表的結構 hbase以表 table 的形式儲存資料 row key 行鍵 與nosql資料庫們一樣,row key是用來檢索記錄的主鍵。row key行鍵 row key 可以是任意字串 最大長度是 64kb,實際應用中長度一般為 10 100bytes 在hbase...
Hbase 入門簡介
hbase是apache hadoop中的乙個子專案,hbase依託於hadoop的hdfs作為最基本儲存基礎單元,通過使用hadoop的dfs工具就可以看到這些這些資料 儲存資料夾的結構,還可以通過map reduce的框架 演算法 對hbase進行操作,如下圖所示 hbase在產品中還包含了je...