hbase資料匯入

使用命令bin/hbase org.apache.hadoop.hbase.mapreduce.importtsv -dimporttsv.columns=hbase_row_key,cf:a,cf:b,cf:c 需要指出的是原始檔預設以」「為分割符，如果需要換成其它分割符，在執行時加上-dimporttsv.separator=」,」，則變成了以」,」分割

這個工具是使用map/reduce方式來進行資料匯入的。map的數量取決於你目錄下面檔案的數量。

大資料量

bulkload.方式匯入

執行命令： bin/hbase org.apache.hadoop.hbase.mapreduce.importtsv -dimporttsv.bulk.output=hdfs://storefile-outputdir -dimporttsv.columns=hbase_row_key,cf:a,cf:b,cf:c

需要你指定乙個hdfs路徑。來儲存你生成的hfile檔案。這時候如果這些hfile所在hdfs和你的hbase集群用到的hdfs集群是同乙個的話。那麼你就可以執行bin/hbase org.apache.hadoop.hbase.mapreduce.loadincrementalhfiles 完成整個過程

$ bin/hbase org.apache.hadoop.hbase.mapreduce.importtsv -dimporttsv.columns=a,b,c $ bin/hbase org.apache.hadoop.hbase.mapreduce.importtsv -dimporttsv.columns=a,b,c -dimporttsv.bulk.output=hdfs://storefile-outputdir

hbase提供了這兩種方式進行匯入.可以看到只是乙個importtsv.bulk.output引數上的差別。內部的實現確實千差萬別。

上面的那個命令是在map的時候輸出put. reduce的時候直接把put提交

下面那個在map時候做的事情一樣。在reduce的時候就是通過hfileoutputformat把keyvalues輸出到hfile

但是下面的方式還有乙個不走就是complete.就是將之前生成的hfile檔案匯入到region中。分布還是比較均勻的

hbase資料匯入

HBase 資料匯入

Hbase資料匯入方案

hive匯入資料到hbase

hbase資料匯入

HBase 資料匯入

Hbase資料匯入方案

hive匯入資料到hbase

相關推薦