在實際生產過程中,因為資料的複雜性,我們通常將處理好的資料快取到hbase中。
本篇文章目的在於在學習過程中做筆記,以備後面的鞏固複習。
**如下
package com.aura.bigdata.dmp.util
import org.apache.hadoop.conf.configuration
import org.apache.hadoop.hbase.hbaseconfiguration
import org.apache.hadoop.hbase.client.
//獲得hbase的hbaseconnection物件
object hbaseconnectionutil
def main(args: array[string]): unit =
}
啟動zookeeper,hdfs,hbase,注意檢視zookeeper,hdfs是否啟動成功,避免ha兩個namenode出現都是standby的情況
啟動完成後,程序如下
通過命令hbase shell進入hbase命令模式,輸入list檢視所有表名
執行上面**檢視結果一致
接下來將rdd資料匯入到hbase表中,這裡舉乙個自己的例子
**如下
userid2tagsrdd.foreachpartition(partition =>
//使用table.put()puts方法一次性匯入
table.put(puts)
table.close()}}
connection.close()}})
程式執行完成後,進入hbase檢視是否匯入成功,如下
使用sqoop將mysql資料匯入hbase
下表 1 通過hbase shell 開啟hbase。2 建立乙個hbase表 3 將so表的資料匯入到hbase中。opt檔案 connect 資料庫 username 資料庫使用者名稱 password 資料庫密碼 table 需要sqoop的表 columns 表中的列 hbase table...
spark資料匯入 處理例項
當專案中遇到所要分析的資料量較大情況時,本地python直接處理或匯入資料庫等普通的處理方式顯然並不合適,不僅效率低下,且容易引起資料庫崩潰。用spark將本地資料上傳hdfs,寫入hive,會更加高效。import com.databricks.spark.csv import org.apach...
如何定址到spark的rostopic
首先通過vncviewer進入spark的系統,並開啟終端 現在通過spark onekey.sh的指令開啟spark機械人的控制程序。此時,spark機械人發布了一系列的topic。我們通過rostopic list列出當前正在發布的話題 其實這指示了當前哪些程序是可用的,有點類似於windows...