顛覆大資料分析之Spark VS分布式共享記憶體系統

顛覆大資料分析之spark vs分布式共享記憶體系統

譯者：黃經業購書

spark可以看作是乙個分布式共享集合系統，和stumm和zhou (1990)以及nitzber和lo (1991)所提到的傳統的分布式共享記憶體（dsm）系統則略有不

在spark中，開發人員呼叫map,filter或reduce操作時可以傳入函式或者閉包。一般來說，當spark在工作節點上執行這些函式的時候，函式使用域內的本地變數會被拷貝出來。spark有乙個共享變數的概念，它使用廣播變數和累加器來模擬「全域性」變數。開發人員使用廣播變數一次性地將唯讀資料拷貝給所有的工作者。(類共軛梯度下降的演算法中的靜態矩陣可以使用廣播變數來表示）累加器是只能由工作者來增加並由驅動程式去讀取的變數——這樣並行聚合可以實現成支援容錯的。值得注意的是全域性變數是在spark中模仿dsm功能的一種特殊方式。

顛覆大資料分析之Spark VS分布式共享記憶體系統

大資料分析工具

大資料分析流程

大資料分析框架

顛覆大資料分析之Spark VS分布式共享記憶體系統

大資料分析工具

大資料分析流程

大資料分析框架

相關推薦