1)、 如果我們一次性入庫hbase巨量資料,處理速度慢不說,還特別占用region資源, 乙個比較高效便捷的方法就是使用 「bulk loading」方法,即hbase提供的hfileoutputformat類。
2)、它是利用hbase的資料資訊按照特定格式儲存在hdfs內這一原理,直接生成這種hdfs內儲存的資料格式檔案,然後上傳至合適位置,即完成巨量資料快速入庫的辦法。配合mapreduce完成,高效便捷,而且不占用region資源,增添負載。
1)、 僅適合初次資料匯入,即表內資料為空,或者每次入庫表內都無資料的情況。
2)、hbase集群與hadoop集群為同一集群,即hbase所基於的hdfs為生成hfile的mr的集群
在hdfs上的/建立data/dianxin目錄,並將事先準備好的資料put到該目錄下,在hbase上建立空表dianxin(列族為info),確保hdfs上該目錄不存在(/data/hfile),準備工作結合**即可明目。
public
class
demo06bulkloading
}public
static
void
main
(string[
] args)
throws exception
}
將編寫的**package上傳到虛擬機器上執行該jar包(下面演示同級目錄下的操作)
hadoop jar hbase-1.0-jar-with-dependencies.jar com.shujia.demo06bulkloading
補充:hbase-1.0-jar-with-dependencies.jar是jar包名,com.shujia.demo06bulkloading是demo06bulkloading**的reference。 Selenium webdriver基本操作1
usr bin env python coding utf 8 from selenium import webdriver import time print 瀏覽器最大化 生成driver物件 driver webdriver.firefox 將瀏覽器最大化 driver.maximize wi...
Elasticsearch 基本CRUD操作
如果指定了id使用指定的id,如果沒有指定則自動生成,如果id重複,則先進行刪除再新建並對文件版本加1 post goods doc post goods doc 1 post goods doc 1 需指定id,會公升級版本,如果id已經存在則報錯 post goods create 1 get ...
鍊錶的基本操
實現鍊錶的增加 刪除 查詢和反轉 class link public void display class linklist 插入頭節點 public void insertfirst int data 刪除頭結點 public link deletefirst 查詢 public link fin...