hbase資料匯出方案

2021-06-20 12:26:25 字數 397 閱讀 4157

當hbase裡的資料量很大時,想要查詢匯出某些資料是非常耗時的。針對於我們一般的應用,對於有批次或任務性質概念的資料,我們可以這樣:

首先,在進行資料存存時,需要對其rowkey進行規範化生成,

如生成規格為:自定義id+任務/批次id+uuid(注意,整個rowkye盡可能保證只有資料和字母,uuid的-字元需替換掉)

這樣,當我們想找到某一批次或任務或某id標識的資料時,可以:

使用scan,以設定其startrow,stoprow實現:

startrow:id+任務id+32位0

stoprow:id+任務id+32位z

因為對應於ascii碼,其排序順序是:數字-大寫字母-小寫字母,所以scan的起碼行可以如上設定,即可找出某任務的所有資料,且這樣尋找的速度非常快。

Hbase資料匯入方案

1 利用importtsv將csv檔案匯入到hbase csv 1,tom 2,sam 3,jerry 命令 create hbase tbl 001 cf bin hbase org.apache.hadoop.hbase.mapreduce.importtsv dimporttsv.separa...

HBase資料匯出到HDFS

一 目的 把hbase中某張表的資料匯出到hdfs上乙份。實現方式這裡介紹兩種 一種是自己寫mr程式來完成,一種是使用hbase提供的類來完成。二 自定義mr程式將hbase資料匯出到hdfs上 2.1首先看看hbase中t1表中的資料 2.2mr的 如下 比較重要的語句是 1 2 3 4 5 6 ...

Hbase資料遷移方案實踐

hbase資料在集群之間遷移的三種方案如上圖所示 其中hbase原生工具支援在hbase層面和hdfs層面的hbase表資料遷移 1.在hdfs層面 distcp是直接遷移hbase表在hdfs上底層的檔案路徑下的檔案 hadoop distcp hdfs sourceip 8020 data hb...