參考:
英文:中文: 1.2.1版本的
(一)快速入門
老規矩,先看乙個簡單示例,有個認識。這個示例來自官方example的sparkpi:
package org.lujinhong.demo.spark/* * 官方的sparkpi示例
*/import scala.math.random
import org.apache.spark._
object sparkpi .reduce(_ + _)
println("pi is roughly " + 4.0 * count / n)
spark.stop()
}}
注意以上的setmaster(「local」)是自己加上去的,方便直接在本地執行。如果在集群上執行,則通過spark-submit的—master引數指定。
寫好**後,就可以直接在eclipse中右鍵—>執行了。
spark程式設計
spark應用程式由兩部分組成 1.driver 2.executor 基本概念 sparkcontext spark應用程式的入口,負責排程各個運算資源,協調各個worker node 的executor 並且負責將資料存在記憶體或磁碟上 cluster manager 集群上獲取資源的外部服務 ...
Spark程式設計Tips
1.盡量用 aggregatebykey 和 reducebykey和combinebykey,替代 groupbykey。這個開發過程中深有體會,groupbykey極易引發各種oom。2.repartition 適用於 rdd v partitionby 適用於 rdd k,v 3.盡量避免在乙...
Spark教程之Spark中併發度的概念
梳理一下spark中關於併發度涉及的幾個概念file,block,split,task,partition,rdd以及節點數 executor數 core數目的關係。輸入可能以多個檔案的形式儲存在 hdfs 上,每個 file 都包含了很多塊,稱為block。當 spark 讀取這些檔案作為輸入時,...