二、實踐詳解
叮嘟!這裡是小啊嗚的學習課程資料整理。好記性不如爛筆頭,今天也是努力進步的一天。一起加油高階吧!
spark提供了兩種建立rdd的方式:
(1)由乙個已經存在的scala集合進行建立。
(2)由外部儲存系統的資料集建立,包括本地的檔案系統,還有所有hadoop支援的資料集,比如hdfs、cassandra、hbase等。
第1關:實踐題
集合並行化建立rdd
第2關:實踐題
讀取外部資料集建立rdd
任務描述
本關任務:計算並輸出各個學生的總成績。
相關知識
為了完成本關任務,你需要掌握:1.集合並行化建立rdd,2.reducebykey運算元、foreach運算元
集合建立rdd
spark會將集合中的資料拷貝到集群上去,形成乙個分布式的資料集合,也就是乙個rdd。相當於是,集合中的部分資料會到乙個節點上,而另一部分資料會到其他節點上。然後就可以用並行的方式來操作這個分布式資料集合,即rdd。
val list=
list(1
,2,3
,4,5
)val stu=sc.
parallelize
(list,3)
//val stu=sc.makerdd(list,3) //和parallelize用法一樣。(該用法可以指定每乙個分割槽的preferredlocations)。
val sum=stu.
reduce
(_+_)
println
(sum)
輸出:15
reducebykey()
對元素為rdd[k,v]對的rdd中key相同的元素的value進行聚合
val list =
list((
"spark",2
),("hive",1
),("hive",2
))val sturdd = sc.
makerdd
(list)
sturdd.
reducebykey
(_+_)
輸出:
(spark,2)
(hive,
3)
foreach():對資料集中每乙個元素執行函式
val list =
list(1
,2,3
,4)val sturdd = sc.
makerdd
(list)
sturdd.
foreach
(print)
//對這個rdd進行遍歷輸出
輸出:1234
參見博文:
- 從hdfs中讀資料
- 從mysql資料庫中讀資料
- 從hbase資料庫中讀資料
ending!更多課程知識學習記錄隨後再來吧!
就醬,嘎啦!
注:人生在勤,不索何獲。
Hadoop大資料探勘從入門到高階實戰
大資料時代,資料的儲存與挖掘至關重要。企業在追求高可用性 高擴充套件性及高容錯性的大資料處理平台的同時還希望能夠降低成本,而hadoop為實現這些需求提供了解決方案。面對hadoop的普及和學習熱潮,筆者願意分享自己多年的開發經驗,帶領讀者比較輕鬆地掌握hadoop資料探勘的相關知識。這邊是筆者編寫...
大資料從入門到實戰 Hive表DDL操作(二)
二 實踐詳解 叮嘟!這裡是小啊嗚的學習課程資料整理。好記性不如爛筆頭,今天也是努力進步的一天。一起加油高階吧!hive資料定義語言 date definition language 包括 create drop alter資料庫 create drop truncate表 alter 表 分割槽 列...
Nginx從入門到實戰
什麼是nginx?nginx engine x 是一款輕量級的web 伺服器 反向 伺服器及電子郵件 imap pop3 伺服器。什麼是反向 反向 reverse proxy 方式是指以 伺服器來接受internet上的連線請求,然後將請求 給內部網路上的伺服器,並將從伺服器上得到的結果返回給int...