spark 學習筆記 dataframe註冊生成表

2022-04-03 09:22:13 字數 440 閱讀 7469

dataframe註冊成一張**,如果通過createtempview這種方式來建立,那麼該**session有效,如果通過createglobaltempview來建立,那麼該**跨session有效,但是sql語句訪問該**的時候需要加上字首global_temp

dataframe 轉換為臨時表,執行sparksql

val df =spark.read.json(path)

df.show()

//

將dataframe 註冊成為一張臨時表

df.createorreplacetempview("

persons")

spark.sql(

"select * from persons where age > 20

").show()

Spark系列之分布式資料集 DataFrame

目錄 1 df的建立 2 臨時表 3 sql查詢 4 rdd到df的轉換 5 df的api 簡介dataframe是一種不可變的分布式資料集,資料被組織成指定的列。和資料庫中的表類似。以下的spark變數均由sparksession建立。1 dataframe的建立 jsondf spark.rea...

spark 學習筆記

最近使用spark簡單的處理一些實際中的場景,感覺簡單實用,就記錄下來了。部門使用者業績表 1000w測試資料 使用者 部門 業績 資料載入 val context new sparkcontext conf var data context.textfile data.txt 場景1 求每個部門的...

spark學習筆記

1 缺省會寫成一堆小檔案,需要將其重新分割槽,直接指定幾個分割槽 spark.sql select row number over partition by depid order by salary rownum from emp repartition 2 write.parquet hdfs ...