worker裡有很多excutor,真正完成計算的是excutor,excutor計算都是在記憶體進行計算,
excutor裡面有partitioner,partitioner裡面的資料如果記憶體足夠大的話放到記憶體中,它是一點一點讀的
rdd是分布式資料集,所說rdd就是這個,
rdd有5個特點:
1.a list of partiotioner有很多個partiotioner(這裡有3個partiotioner),可以明確的說,
乙個分割槽在一台機器上,乙個分割槽其實就是放在一台機器的記憶體上,
一台機器上可以有多個分割槽。
2.a function for partiotioner乙個函式作用在乙個分割槽上。
比如說乙個分割槽有1,2,3 在rdd1.map(_*10),把rdd裡面的每乙個元素取出來乘以10,每個分片都應用這個map的函式
3.rdd之間有一系列的依賴
rdd1.map(_*10).flatmap(..).map(..).reducebykey(...)
構建成為dag,這個dag會構造成很多個階段,這些階段叫做stage,rddstage之間會有依賴關係,後面根據前面的依賴關係來構建,如果前面的資料丟了,它會記住前面的依賴,從前面進行重新恢復。每乙個運算元都會產生新的rdd.
textfile 與flatmap會產生兩個rdd.
4.分割槽器hash & integer.max % partiotioner 決定資料到哪個分割槽裡面,可選,這個rdd是key-value 的時候才能有
5.最佳位置。資料在哪台機器上,任務就啟在哪個機器上,資料在本地上,不用走網路。不過資料進行最後彙總的時候就要走網路。(hdfs file的block塊)
RDD五大特性
1 a list of partitions 一系列的分片 比如說128m一片,類似於hadoop中的split 2 a function for computing each split 每個分片上都有乙個函式去迭代 執行 計算它 3 a list of dependencies on other...
RDD的5大特點
1 有乙個分片列表,就是能被切分,和hadoop一樣,能夠切分的資料才能平行計算。一組分片 partition 即資料集的基本組成單位,對於rdd來說,每個分片都會被乙個計算任務處理,並決定平行計算的粒度。使用者可以在建立rdd時指定rdd的分片個數,如果沒有指定,那麼就會採用預設值。預設值就是程式...
html5的八大特性
html5是用於取代1999年所制定的 html 4.01 和 xhtml 1.0 標準的 html 1 標準通用標記語言下的乙個應用 標準版本 現在仍處於發展階段,但大部分瀏覽器已經支援某些 html5 技術。html 5有八大特點 語義特性 class semantic html5賦予網頁更好的...