update at 2016.1.25
rdd作者的**鏈結
**的理解:
spark要解決的問題:
1、有些資料要多次讀寫,磁碟速度很慢
2、沒有互動的介面,不能看到中間結果
適用的應用:
1、機器學習:多個迭代次運算,逼近(優化問題)。==》是不是三維重建中優化也可以用到這個
2、計算結果還要用的:pagerank
解決辦法==》資料抽象成rdd+memory-cache
其中提到finer- grained shared memory abstractions ,那麼coarse又是什麼呢
沒看懂rdd是怎麼實現的
繼續學習
Spark中RDD資料結構的理解
spark在國內的大量普及,越來越多人學習spark技術,作為spark core中最重要的資料結構rdd,是學習spark重點之一 rdd resilient distributed datasets,彈性分布式資料集 是spark最為核心的概念,自然也是理解apache spark 工作原理的最...
對Spark的理解
spark作為乙個新的分布式計算引擎正慢慢流行起來,越來越來的企業也準備用它的替換mapreduce,根據自己在工作的一些體會談談的優勢。分布式計算歸根到底還是乙個map和reduce操作,map操作對每個資料塊進行計算,reduce操作對結果進行彙總,現在一些nosql分布式資料庫其實也是這麼一套...
spark中建立RDD的方式
spark中建立rdd的幾種方式 1 使用程式中的集合建立rdd 一般用於測試 2 使用本地檔案系統建立rdd 一般用於資料量大的檔案的測試 3 基於hdfs建立rdd 生產環境最常用的rdd建立方式 4 使用s3建立rdd 5 基於資料流建立rdd packagecom.dt.spark impo...