Hbase bulkloading 基本操作

1）、如果我們一次性入庫hbase巨量資料，處理速度慢不說，還特別占用region資源，乙個比較高效便捷的方法就是使用「bulk loading」方法，即hbase提供的hfileoutputformat類。

2）、它是利用hbase的資料資訊按照特定格式儲存在hdfs內這一原理，直接生成這種hdfs內儲存的資料格式檔案，然後上傳至合適位置，即完成巨量資料快速入庫的辦法。配合mapreduce完成，高效便捷，而且不占用region資源，增添負載。

1）、僅適合初次資料匯入，即表內資料為空，或者每次入庫表內都無資料的情況。

2）、hbase集群與hadoop集群為同一集群，即hbase所基於的hdfs為生成hfile的mr的集群

在hdfs上的/建立data/dianxin目錄，並將事先準備好的資料put到該目錄下，在hbase上建立空表dianxin（列族為info），確保hdfs上該目錄不存在（/data/hfile），準備工作結合**即可明目。

public
class
demo06bulkloading
}public
static
void
main
(string[
] args)
throws exception 
}

將編寫的**package上傳到虛擬機器上執行該jar包（下面演示同級目錄下的操作）

hadoop jar hbase-1.0-jar-with-dependencies.jar com.shujia.demo06bulkloading

補充：hbase-1.0-jar-with-dependencies.jar是jar包名，com.shujia.demo06bulkloading是demo06bulkloading**的reference。