使用hbase put api:例如mapreduce也是使用put api
使用hbase批量載入工具
自定義的mapreduce job
這三種方式都涉及到put內建,大多數資料遷移場景都涉及到資料的匯入(import),從存在的rdbms匯入到hbase中去,大多數簡單直接的方法是直接獲取資料,使用單執行緒,這種效果非常慢,其實可以寫多執行緒完成。
同時importtsv是hbase提供的乙個命令列工具,可以將儲存在hdfs上的自定義分隔符(預設\t)的資料檔案,通過一條命令方便的匯入到hbase表中,對於大資料量匯入非常實用通過以下步驟可以將乙個tsv檔案的資料匯入到hbase的**中以下將介紹如何使用importtsv.
export hbase_home=/opt/sofewares
/hbase/hbase-0.98.6-hadoop2
export hadoop_home=/opt/cdh5.3.6/hadoop-2.5.0-cdh5.3.6
hadoop_classpath=`$/bin/hbase mapredcp` $/bin/hadoop jar
$hbase_home/lib/hbase-server-0.98.6-hadoop2.jar importtsv \
-dimporttsv.columns=hbase_row_key,info:name,info:age,info:***,info:address,info:phone student hdfs:
/beifeng/hbase
/importtsv
importtsv工具匯入文字檔案到Hbase
importtsv是從tsv檔案直接載入內容到hbase的乙個hbase內建工具,通過執行mr job,將資料從tsv檔案直接寫入hbase的表或寫入乙個hbase的自由格式資料檔案 hfile 使用awk工具對原始檔案作處理,新增rowkey欄位。將第乙個欄位和第二個字段拼接作為rowkey。命令...
使用importtsv命令載入資料
原文 bulkload是向hbase批量載入資料的方式,它會直接將資料進行準備和並載入成hfile,並直接講檔案插入到regionserver中,這比通過乙個mapreduce spark作業來載入效能高得多。詳細的流程如下 1.抽取資料並形成固定格式的檔案,比如csv。2.將資料轉換稱為hfile...
使用DataX從CSV中讀取檔案存入HBase
參考文件 csv檔案格式 csv檔案提取碼 esuw json檔案內容 job content fielddelimiter writer table test mode normal nullmode empty rowkeycolumn column versioncolumn encoding...