Spark 操作hive實戰練習

2021-10-07 23:02:14 字數 462 閱讀 8828

比如:

user3,已經有了5月5號的訂單(不公開)來評測模型的

我們有的是5月4號之前的歷史資料

我們需要**,通過歷史(5月4號之前訂單資料),**這個使用者5月5號買了什麼

1、資料準備:

a、在hive中建立orders訂單外部表

b、在hive中建立products商品外部表

c、在hive中建立priors(order_products__prior)訂單商品關聯外部表

檢視hadoop上檔案前幾行資料

2、啟動hadoop集群,hive,spark-shell 連線hive

Spark SQL操作Hive實戰

在目前企業級 spark大資料開發中,大多數情況下都是採用hive來作為資料倉儲的。spark提供了對hive的支援,spark通過hivecontext可以直接操作hive中的資料。基於hivecontext,我們可以使用sql hql兩種方式來編寫sql語句 對hive進行操作,包括 建立表 刪...

spark使用Hive表操作

之前很長一段時間是通過hiveserver操作hive表的,一旦hiveserver宕掉就無法進行操作。比如說乙個修改表分割槽的操作 val tblname hive table defdroppartitions tblname string unit 後來發現通過hivecontext可以實現同...

Spark實戰練習03 Pair RDD

一 場景 現有某 的 日誌,內容為使用者對 的請求,包含user id ip address datetime 等等 另有乙份檔案中包含使用者的賬戶詳細資訊資料,包含user id creation date first last name等等 二 任務 1 統計每位使用者的請求次數 1 從檔案建立...