使用命令bin/hbase org.apache.hadoop.hbase.mapreduce.importtsv -dimporttsv.columns=hbase_row_key,cf:a,cf:b,cf:c 需要指出的是原始檔預設以」 「為分割符,如果需要換成其它分割符,在執行時加上-dimporttsv.separator=」,」,則變成了以」,」分割
這個工具是使用map/reduce方式來進行資料匯入的。map的數量取決於你目錄下面檔案的數量。
大資料量
bulkload.方式匯入
執行命令: bin/hbase org.apache.hadoop.hbase.mapreduce.importtsv -dimporttsv.bulk.output=hdfs://storefile-outputdir -dimporttsv.columns=hbase_row_key,cf:a,cf:b,cf:c
需要你指定乙個hdfs路徑。來儲存你生成的hfile檔案。 這時候如果這些hfile所在hdfs和你的hbase集群用到的hdfs集群是同乙個的話。那麼你就可以執行bin/hbase org.apache.hadoop.hbase.mapreduce.loadincrementalhfiles 完成整個過程
$ bin/hbase org.apache.hadoop.hbase.mapreduce.importtsv -dimporttsv.columns=a,b,c $ bin/hbase org.apache.hadoop.hbase.mapreduce.importtsv -dimporttsv.columns=a,b,c -dimporttsv.bulk.output=hdfs://storefile-outputdirhbase提供了這兩種方式進行匯入.可以看到只是乙個importtsv.bulk.output引數上的差別。內部的實現確實千差萬別。
上面的那個命令是在map的時候輸出put. reduce的時候直接把put提交
下面那個在map時候做的事情一樣。在reduce的時候就是通過hfileoutputformat把keyvalues輸出到hfile
但是下面的方式還有乙個不走就是complete.就是將之前生成的hfile檔案匯入到region中。分布還是比較均勻的
HBase 資料匯入
記錄一下hbase 0.96.0 利用importtsv,completebulkload 和import匯入資料的方法。我的環境裡用的是yarn。1 利用importtsv 將cvs檔案匯入到hbase 步驟 a.在hbase裡面建立好table 命令 create hbase tbl 001 c...
Hbase資料匯入方案
1 利用importtsv將csv檔案匯入到hbase csv 1,tom 2,sam 3,jerry 命令 create hbase tbl 001 cf bin hbase org.apache.hadoop.hbase.mapreduce.importtsv dimporttsv.separa...
hive匯入資料到hbase
hive有一張表user tag detail,表中資料約1.3億,需要將改表資料匯入到hbase 嘗試了兩種方式 建立關聯表 create table hbase user tag detail id string,name string 插入資料 insert overwrite table h...