spark如何匯入資料到hbase資料庫

2021-09-10 12:30:27 字數 1012 閱讀 6316

在實際生產過程中,因為資料的複雜性,我們通常將處理好的資料快取到hbase中。

本篇文章目的在於在學習過程中做筆記,以備後面的鞏固複習。

**如下

package com.aura.bigdata.dmp.util

import org.apache.hadoop.conf.configuration

import org.apache.hadoop.hbase.hbaseconfiguration

import org.apache.hadoop.hbase.client.

//獲得hbase的hbaseconnection物件

object hbaseconnectionutil

def main(args: array[string]): unit =

}

啟動zookeeper,hdfs,hbase,注意檢視zookeeper,hdfs是否啟動成功,避免ha兩個namenode出現都是standby的情況

啟動完成後,程序如下

通過命令hbase shell進入hbase命令模式,輸入list檢視所有表名

執行上面**檢視結果一致

接下來將rdd資料匯入到hbase表中,這裡舉乙個自己的例子

**如下

userid2tagsrdd.foreachpartition(partition =>

//使用table.put()puts方法一次性匯入

table.put(puts)

table.close()}}

connection.close()}})

程式執行完成後,進入hbase檢視是否匯入成功,如下

使用sqoop將mysql資料匯入hbase

下表 1 通過hbase shell 開啟hbase。2 建立乙個hbase表 3 將so表的資料匯入到hbase中。opt檔案 connect 資料庫 username 資料庫使用者名稱 password 資料庫密碼 table 需要sqoop的表 columns 表中的列 hbase table...

spark資料匯入 處理例項

當專案中遇到所要分析的資料量較大情況時,本地python直接處理或匯入資料庫等普通的處理方式顯然並不合適,不僅效率低下,且容易引起資料庫崩潰。用spark將本地資料上傳hdfs,寫入hive,會更加高效。import com.databricks.spark.csv import org.apach...

如何定址到spark的rostopic

首先通過vncviewer進入spark的系統,並開啟終端 現在通過spark onekey.sh的指令開啟spark機械人的控制程序。此時,spark機械人發布了一系列的topic。我們通過rostopic list列出當前正在發布的話題 其實這指示了當前哪些程序是可用的,有點類似於windows...