spark資料分析 2

首先來理解(0,0)這個初始值：說明aggregate（）方法會返回乙個元組，而因為是分布式集群來進行分析，所以第乙個lambda表示式是每個worker所執行的，比如我們有三個worker，那麼他們得到的結果分別是：(14,2)；(8,2)；(14,2)。而第二個lambda表示式則是driver把那三個worker的結果進行彙總計算，得到（36，6）這一結果

而在現實生產中，我們需要盡可能的去利用到每乙個分割槽（worker），所以我們可以認為的用repartition()方法去設定分析資料所需要的分割槽，而上面的aggregate()的初始值100就是每個分割槽的數值，236中的200是說明有乙個分割槽分析資料，之後driver彙總，所以是200，36則是6個資料的和

從以上的操作可以看出，我們進行資料分析時要靈活的運用python和spark中類和方法，這樣就可以讓我們得到我們想要的結果