rdd:彈性分布式資料集。
operation:transformation 和action,乙個返回rdd,乙個返回值。
lineage:rdd之間的依賴關係,如何演變過來。
partition:rdd分割槽,按block切分
narrow dependency(窄依賴) :父rdd全進入子rdd
wide dependency(寬依賴)
job[乙個計算序列的最終結果action操作,多個rdd以及作用於rdd之上的operation]
stage[計算序列的中間結果]
[劃分stage的重要依據是有無shuflle (資料重組)發生,由dagschedule進行劃分,shuffle在spark中是把父rdd中kv對按照key重新分割槽,得到乙個新的子rdd,包括這幾個操作reducebykey、groupbykey、sortbykey、countbykey、join、cogroup]
task[每個partition在乙個executor上的operation是乙個task,即乙個thread]
spark(standalone模式)基本元件;
master(rm):負責資源管理,sparkonyarn模式下就是rm
worker(nm):乙個worker可以有多個executor
executor(container,可以看作資源集合、也可看作task的執行池,乙個jvm程序):
當以yarn模式啟動spark集群時,可以指定
executors的數量(-num-executors 或者 spark.executor.instances 引數)
executor 固有的記憶體大小(-executor-memory 或者 spark.executor.memory),executor使用的cpu核數(-executor-cores 或者 spark.executor.cores)
executor分配給每個task的core的數量(spark.task.cpus)
driver 上使用的記憶體(-driver-memory 或者 spark.driver.memory)。
大資料框架Hadoop和Spark的異同
解決問題的層面不一樣 首先,hadoop 和 apache spark 兩者都是大資料框架,但是各自存在的目的不盡相同。hadoop 實質上更多是乙個分布式資料基礎設施 它將巨大的資料集分派到乙個由普通計算機組成的集群中的多個節點進行儲存,意味著您不需要購買和維護昂貴的伺服器硬體。同時,hadoop...
大資料框架 Hadoop 和 Spark 的異同
大資料框架 hadoop 和 spark 的異同 談到大資料,相信大家對hadoop和apache spark這兩個名字並不陌生。但我們往往對它們的理解只是提留在字面上,並沒有對它們進行深入的思考,下面不妨跟我一塊看下它們究竟有什麼異同。解決問題的層面不一樣 首先,hadoop和apache spa...
基於spark的大資料提取校驗框架
在機器學習等大資料使用場景中,資料的準確性是非常重要。機器學習模型構建的再完美,如果訓練特徵資料或 的特徵資料有問題,其模型結果準確度就無法保證。就如聽車品覺老師分享大資料決策時,提到要重視和預防data broken,資料出現問題給大資料應用將帶來災難性的結果。從技術角度講,要保證提取資料的正確性...