dataframe註冊成一張**,如果通過createtempview這種方式來建立,那麼該**session有效,如果通過createglobaltempview來建立,那麼該**跨session有效,但是sql語句訪問該**的時候需要加上字首global_temp
dataframe 轉換為臨時表,執行sparksql
val df =spark.read.json(path)df.show()
//將dataframe 註冊成為一張臨時表
df.createorreplacetempview("
persons")
spark.sql(
"select * from persons where age > 20
").show()
Spark系列之分布式資料集 DataFrame
目錄 1 df的建立 2 臨時表 3 sql查詢 4 rdd到df的轉換 5 df的api 簡介dataframe是一種不可變的分布式資料集,資料被組織成指定的列。和資料庫中的表類似。以下的spark變數均由sparksession建立。1 dataframe的建立 jsondf spark.rea...
spark 學習筆記
最近使用spark簡單的處理一些實際中的場景,感覺簡單實用,就記錄下來了。部門使用者業績表 1000w測試資料 使用者 部門 業績 資料載入 val context new sparkcontext conf var data context.textfile data.txt 場景1 求每個部門的...
spark學習筆記
1 缺省會寫成一堆小檔案,需要將其重新分割槽,直接指定幾個分割槽 spark.sql select row number over partition by depid order by salary rownum from emp repartition 2 write.parquet hdfs ...