sparksession、sparkcontext
sparksession:是sparksql的入口,builder是sparksession的構造器,通過stop函式來停止(sparkconf、sparkcontext、sqlcontext均封裝在其中)
spark.conf.set:設定執行引數
讀取元資料:
建立dataset
建立dataframe
rdd、dataset、dataschema
集群模式
提交應用
./bin/spark-submit \
--class \(e.g.org.apache.spark.examples.sparkpi
)
--master \(e.g.spark:
)
--deploy-mode \(cluster\client(default))
--conf =\
... # other options
cluster:
master url:
load configuration:by default, it will read options from conf/spark-default.conf
jar包依賴:使用--jar選項的jar包將會自動傳輸到集群
spark 學習筆記
最近使用spark簡單的處理一些實際中的場景,感覺簡單實用,就記錄下來了。部門使用者業績表 1000w測試資料 使用者 部門 業績 資料載入 val context new sparkcontext conf var data context.textfile data.txt 場景1 求每個部門的...
spark學習筆記
1 缺省會寫成一堆小檔案,需要將其重新分割槽,直接指定幾個分割槽 spark.sql select row number over partition by depid order by salary rownum from emp repartition 2 write.parquet hdfs ...
Spark學習筆記
spark不僅僅支援mapreduce,還支援sql machine learning graph運算等,比起hadoop應用更靈活寬泛。spark 中的rdd 資料結構應對mapreduce中data replication disk io serialization引起的低效問題。rdd 類似於...