尚矽谷Hbase學習整理

2021-10-01 06:33:03 字數 1432 閱讀 4594

hbase的原型是google的bigtable**,受到了該**思想的啟發,目前作為hadoop的子專案來開發維護,用於支援結構化的資料儲存。

官方**:

– 2023年google發表bigtable***

– 2023年開始開發hbase

– 2023年北京成功開奧運會,程式設計師默默地將hbase弄成了hadoop的子專案

– 2023年hbase成為apache頂級專案

– 現在很多公司二次開發出了很多發行版本,你也開始使用了。

hbase是乙個高可靠性、高效能、面向列、可伸縮的分布式儲存系統,利用hbase技術可在廉價pc server上搭建起大規模結構化儲存集群。

hbase的目標是儲存並處理大型的資料,更具體來說是僅需使用普通的硬體配置,就能夠處理由成千上萬的行和列所組成的大型資料。

hbase是google bigtable的開源實現,但是也有很多不同之處。比如:google bigtable利用gfs作為其檔案儲存系統,hbase利用hadoop hdfs作為其檔案儲存系統;google執行mapreduce來處理bigtable中的海量資料,hbase同樣利用hadoop mapreduce來處理hbase中的海量資料;google bigtable利用chubby作為協同服務,hbase利用zookeeper作為對應。

1)海量儲存

hbase適合儲存pb級別的海量資料,在pb級別的資料以及採用廉價pc儲存的情況下,能在幾十到百毫秒內返回資料。這與hbase的極易擴充套件性息息相關。正式因為hbase良好的擴充套件性,才為海量資料的儲存提供了便利。

2)列式儲存

這裡的列式儲存其實說的是列族(columnfamily)儲存,hbase是根據列族來儲存資料的。列族下面可以有非常多的列,列族在建立表的時候就必須指定。

3)極易擴充套件

hbase的擴充套件性主要體現在兩個方面,乙個是基於上層處理能力(regionserver)的擴充套件,乙個是基於儲存的擴充套件(hdfs)。

通過橫向新增regionsever的機器,進行水平擴充套件,提公升hbase上層的處理能力,提公升hbsae服務更多region的能力。

備註:regionserver的作用是管理region、承接業務的訪問,這個後面會詳細的介紹通過橫向新增datanode的機器,進行儲存層擴容,提公升hbase的資料儲存能力和提公升後端儲存的讀寫能力。

4)高併發(多核)

由於目前大部分使用hbase的架構,都是採用的廉價pc,因此單個io的延遲其實並不小,一般在幾十到上百ms之間。這裡說的高併發,主要是在併發的情況下,hbase的單個io延遲下降並不多。能獲得高併發、低延遲的服務。

5)稀疏

稀疏主要是針對hbase列的靈活性,在列族中,你可以指定任意多的列,在列資料為空的情況下,是不會占用儲存空間的。

SprigBoot學習筆記 尚矽谷(1)

1 父專案 2 啟動器 public class target retention retentionpolicy.runtime documented inherited springbootconfiguration enableautoconfiguration componentscan e...

MySQL 尚矽谷 學習筆記1

使用資料庫 use myemployees 1.查詢表中的單個字段 select last name from employees 2.查詢表中的多個字段 select last name,salary,email from employees 3.查詢表中的所有字段 方式1 select empl...

MySQL 尚矽谷 學習筆記1

使用資料庫 use myemployees 1.查詢表中的單個字段 select last name from employees 2.查詢表中的多個字段 select last name,salary,email from employees 3.查詢表中的所有字段 方式1 select empl...