HBASE 資料操作,MapReduce

2021-07-10 11:21:51 字數 1394 閱讀 1493

前面已經對hbase有了不少了解了,這篇重點在實踐操作。hbase本身是乙個很好的key-value的儲存系統,但是也不是萬能的,很多時候還是要看用在什麼情形,怎麼使用。kv之類的資料庫就是要應用在這類快速查詢的應用上,而不是像傳統的sql那樣關聯查詢,分組計算,這些可就不是hbase的長處了。下面先來觀察下hbase的基本操作和儲存,然後介紹下基於hbase的mapreduce怎麼寫,在一些應用可能需要的coprocessor又該怎麼玩。

建立乙個表test,檢視表結構,順便說下,表結構裡面的很多選項是很重要的,data_block_encoding => 'none', bloomfilter => 'row', replication_scope => '0', versions

=> '1', compression => 'none', min_versions => '0', ttl => 'forever', keep_deleted_cells => 'false', blo

cksize => '65536', in_memory => 'false', blockcache => 'true'這些都是預設的指,可以根據實際需要修改這些選項,對儲存和效能有著重要的影響。

可以在hdfs裡面觀察下hbase資料在hdfs裡面是怎麼存放的。左邊是系統安裝之後,沒有建表的情形;

中間的部分是建立了test表之後多出來了乙個test目錄,兩個列族也看到了;

右邊是強制flush資料之後看到列族下面多了乙個檔案,窺豹一斑,可見hbase的資料儲存。

hbase的mapreduce怎麼寫

下面幾個例子都是使用mapreduce讀寫hbase資料的:

python操作 hbase 資料

python使用的包 thrift 個人使用的python 編譯器是pycharm community edition.在工程中設定中,找到project interpreter,在相應的工程下,找到package,然後選擇 新增,搜尋 hbase thrift python client for ...

大資料HBase系列之HBase基本操作

hbase version hbase zkcli hbase shell 2.1 建立表 語法 create 表名 列族名 create student info 2.2 顯示所有表 語法 list 或 list 表名 list student 2.3 顯示表描述 語法 describe 表名 d...

hbase資料庫scan操作 HBase的Scan

hbase的scan和get不同,前者獲取資料是序列,後者則是並行 是不是有種大跌眼鏡的感覺?scan有四種模式 scan,table snapscan,table scanmr,snapshotscanmr 前面兩個是序列玩 後面兩個是放置到mapreduce中玩 其中效能最好的就是snapsho...