Spark學習筆記

2022-08-18 21:15:18 字數 669 閱讀 6955

sparksession、sparkcontext

sparksession:是sparksql的入口,builder是sparksession的構造器,通過stop函式來停止(sparkconf、sparkcontext、sqlcontext均封裝在其中)

spark.conf.set:設定執行引數

讀取元資料:

建立dataset

建立dataframe

rdd、dataset、dataschema

集群模式

提交應用

./bin/spark-submit \

--class \(e.g.org.apache.spark.examples.sparkpi

--master \(e.g.spark:)

--deploy-mode \(cluster\client(default))

--conf =\

... # other options

cluster:

master url:

load configuration:by default, it will read options from conf/spark-default.conf

jar包依賴:使用--jar選項的jar包將會自動傳輸到集群

spark 學習筆記

最近使用spark簡單的處理一些實際中的場景,感覺簡單實用,就記錄下來了。部門使用者業績表 1000w測試資料 使用者 部門 業績 資料載入 val context new sparkcontext conf var data context.textfile data.txt 場景1 求每個部門的...

spark學習筆記

1 缺省會寫成一堆小檔案,需要將其重新分割槽,直接指定幾個分割槽 spark.sql select row number over partition by depid order by salary rownum from emp repartition 2 write.parquet hdfs ...

Spark學習筆記

spark不僅僅支援mapreduce,還支援sql machine learning graph運算等,比起hadoop應用更靈活寬泛。spark 中的rdd 資料結構應對mapreduce中data replication disk io serialization引起的低效問題。rdd 類似於...