第一階段(1-3
月):會從淺入深,基於大量案例實戰,深度剖析和講解
spark
,並且會包含完全從企業真實複雜業務需求中抽取出的案例實戰。課程會涵蓋
scala
程式設計詳解、
spark
核心程式設計、
spark sql
和spark streaming
、spark graphx
、sparkr
、machine learning
、spark
核心以及原始碼剖析、效能調優、企業級案例實戰等部分
第二階段(spark
超大規模大資料案例實戰):使用了
spark
技術生態棧中的
spark core
、spark sql
、spark streaming
、sparkr
、machine learning
,進行離線計算和實時計算業務模組的開發、資料的關聯性分析、使用者行為模式和特徵的訓練與應用、使用者網路的社群發現、使用者影響力、能量傳播、標籤傳播、標籤推理、人群劃分、年齡段**、商品交易時序跳轉
建立rdd方法
建立rdd
的方式(方法很多,場景也很多)以下為較為常見的七中方式:
1,使用程式中的集合建立
rdd;
2,使用本地檔案系統建立
rdd;
3,使用
hds建立
rdd
4,基於
db建立
rdd
5,基於
nosql,
例如hbase
6,基於
s3建立
rdd
7,基於資料流建立
rdd
我們可以在再智慧型裝置 例如手機 平板 電視 上使用spark,也可以在pc和server使用使用sdpark!
多執行緒方式模擬分布式,
local模式 預設情況下如果失敗了 就是失敗了。下面**使用程式中的集合建立rdd。
(1)通過集合建立rdd
object testclassrdd_1
}
(2)使用hdfs建立rdd
val conf = new sparkconf()
conf.setmaster("local")
val sc = new sparkcontext()
val numbers = 1 to 100 //建立乙個scala集合
val rdd = sc.textfile(「/input/data/reanme.md」) //建立了乙個parallelcollectionrdd
val lineslength = rdd.map(line => line.length)
val sum = lineslength.reduce(_ + _)
println("the total characters of the file is : " + sum)
(3)本地檔案建立rdd,主要用於測試大量資料
val conf = new sparkconf()
conf.setmaster("create rdd in local")
val sc = new sparkcontext()
val numbers = 1 to 100
val rdd = sc.textfile(「d://spark //建立了乙個parallelcollectionrdd
val lineslength = rdd.map(line => line.length)
val sum = lineslength.reduce(_ + _)
println("the total characters of the file is : " + sum)
將**拷貝到spark集群,進行執行,上圖其實將1-100分成了32個partition,下面執行
parallelize(預設情況spark最大允許cores),生成parallelizecollectionrddreduce不會產生rdd。
實際上spark的並行度到底應該設定為多少呢?
每個core可以乘上2-4個partitions,任務處理大小不同,所需cpu、mem均不同,設定cores大小在64-128之間,跟並行度有關,跟資料規模無關,只跟每個stage在計算partition所需的cpu、mem有關。
基於檔案系統建立rdd
dt大資料夢工廠
部落格:http://.blog.sina.com.cn/ilovepains
tel:18610086859
email:[email protected]
RDD操作建立RDD,轉換操作
學習完廈門大學資料庫spark課程總結 rdd是面對物件的檔案集合,類似於dataframe的一行資料,建立rdd有很多種模式 lines sc.textfile file usr local spark 檔案目錄位址 注意sc是sparkcontext縮寫可能需要import一下,這是從本地檔案建...
建立RDD方式
i 通過外部的儲存系統建立rdd,如本地檔案,hdfs等 scala val a sc.textfile root.text.txt scala val a sc.textfile hdfs hadoop 01 9000 text.txt ii 將driver的scala集合通過並行化的方式變成rd...
Spark之RDD的建立
在spark中建立rdd的建立方式可以分為三種 從集合中建立rdd 從外部儲存建立rdd 從其他rdd建立。從集合中建立rdd,spark主要提供了兩種函式 parallelize和makerdd 1 使用parallelize 從集合建立 2 使用makerdd 從集合建立 包括本地的檔案系統,還...