Hadoop資料儲存 Hbase

2021-07-25 05:26:19 字數 956 閱讀 7333

大家都知道hadoop是乙個資料庫,其實說的的就是hbase。它和我們平常理解的關係型資料庫有什麼區別呢?

1. 它是nosql的,它沒有sql的介面,有自己的一套api。

通過以上描述,我們分析一下hbase的特點:

(1)儲存海量資料:pb+

(2)高吞吐:每秒每個節點上千次寫

(3)適合處理稀疏資料(半結構化資料):儲存一行的空列沒有空間浪費。因為半結構化資料有大量的空存在,那麼使用結構化資料儲存到關係型資料庫,就會有大量的空間浪費,而且不適合做分析。

但是hbase訪問模式是受到限制的,它對基於行鍵的查詢做了優化,而不是全文查詢;沒有事務,只支援單行操作。

說了這麼多,那麼我們為什麼使用hbase呢?這裡我們做乙個對比:

(1) 使用hdfs

你只需要追加到資料集(沒有隨機寫)

通常讀取整個資料集(沒有隨機讀)

(2)使用hbase

你需要隨機寫或讀

每秒對tb級的資料執行上千次操作

(3)使用rdbms

資料放在乙個大節點上

需要全部的事務支援

需要實時查詢的能力

這就是個人對於hbase的一些認知和了解,寫出來和大家共同分享,希望可以共同進步。不過我個人平常也會關注csdn論壇

HBase資料儲存

hbase的資料檔案都儲存在hdfs上,格式主要有兩種 hfile hbase中keyvalue資料的儲存格式,hfile是hadoop的二進位制檔案,實際上storefile就是對hfile做了輕量級的包裝,即storefile底層就是hfile hlog file hbase中wal write...

HBASE 資料儲存實踐

hbase 來自hadoop database 是乙個很好的bigtable的實現,能夠儲存上百億行和百萬列的資料,是乙個高可靠性 高效能 面向列 可伸縮的分布式儲存系統。hbase的基本架構組成如下 hbase使用zookeeper作為協調服務,每個時刻只有乙個hmaster在執行,hmaster...

大資料儲存HBase

這兩天要寫乙個方案,某單位想建乙個中心資料庫,匯聚各業務系統資料,以及各種網上抓取的預報資料。我設想是用hbase。主要考慮點是 1 開源 2 支援海量資料 該單位的資料量增長按規劃還是很大的,大約每天20gb 關係型資料庫就不考慮了。rdbms本質上是單機系統,拿mysql來說吧,主從複製,讀寫分...