1、hbase簡介
hadoop
database,是乙個高可靠性、高效能、面向列、可伸縮、實時讀寫的分布式
資料庫; 利用
hadoop
hdfs作為其檔案儲存系統,利用hadoop
mapreduce來處理hbase中的海量資料,利用zookeeper作為其分布式協同服務; 主要
用來儲存非結構化和半結構化的鬆散資料(列存
nosql
資料庫);
2、hbase資料模型
rowkey
timestamp
cf1cf2
cf300001
t5cf2:q2=val2
cf3:q3=val4
t3cf3:q3=val3
t1cf1:q1=val1
2.1 rowkey
2.2 column family - cf - 列族 及 qualifier - 列
2.3 timestamp - 時間戳
2.4 cell - 單元格
2.5 hlog - wal log
3、hbase架構
hregion是hbase中分布式儲存和負載均衡的最小單元。最小單元就表示不同的hregion可以分布在不同的
hregion
server上。
hregion由乙個或者多個store組成,每個store儲存乙個columns
family。
3.6memstore
與storefile
每個strore由乙個memstore和0至多個storefile組成,storefile以hfile格式儲存在hdfs上。
大資料元件 HBASE
1 hbase是乙個非關係型分布式資料庫 nosql bigtable 參考的是谷歌 2 高可靠 採用主從架構,使用zookeeper管理 高效能 分布式並行處理 面向列 可伸縮 可新增子節點 3 採用hdfs作為檔案儲存系統 也可以採用其它的檔案儲存系統,沒整合mr計算的功能 4 hbase擅長查...
大資料儲存HBase
這兩天要寫乙個方案,某單位想建乙個中心資料庫,匯聚各業務系統資料,以及各種網上抓取的預報資料。我設想是用hbase。主要考慮點是 1 開源 2 支援海量資料 該單位的資料量增長按規劃還是很大的,大約每天20gb 關係型資料庫就不考慮了。rdbms本質上是單機系統,拿mysql來說吧,主從複製,讀寫分...
大資料學習筆記
大資料處理是雲計算中非常重要的領域,自google公司提出mapreduce分布式處理框架以來,以hadoop為代表的開源軟體受到越來越多公司的重視和青睞。本文將講述hadoop系統中的乙個新成員 impala。impala架構分析 impala是cloudera公司主導開發的新型查詢系統,它提供s...