寒假學習進度

rdd依賴關係

（1）rdd 血緣關係

val filerdd: rdd[string] = sc.textfile("input/1.txt")

println(filerdd.todebugstring)

println("----------------------")

val wordrdd: rdd[string] = filerdd.flatmap(_.split(" "))

println(wordrdd.todebugstring)

println("----------------------")

val maprdd: rdd[(string, int)] = wordrdd.map((_,1))

println(maprdd.todebugstring)

println("----------------------")

val resultrdd: rdd[(string, int)] = maprdd.reducebykey(_+_)

println(resultrdd.todebugstring)

resultrdd.collect()

（2）rdd 依賴關係

val sc: sparkcontext = new sparkcontext(conf)

val filerdd: rdd[string] = sc.textfile("input/1.txt")

println(filerdd.dependencies)

println("----------------------")

val wordrdd: rdd[string] = filerdd.flatmap(_.split(" "))

println(wordrdd.dependencies)

println("----------------------")

val maprdd: rdd[(string, int)] = wordrdd.map((_,1))

println(maprdd.dependencies)

println("----------------------")

val resultrdd: rdd[(string, int)] = maprdd.reducebykey(_+_)

println(resultrdd.dependencies)

resultrdd.collect()

（3）rdd依賴關係分為窄依賴和寬依賴

窄依賴：乙個rdd 的 partition 被另乙個rdd 的乙個 partition 使用

寬依賴：乙個rdd 的 partition 被另乙個rdd 的多個 partition 使用

寒假學習進度

今天就是踐行spark的安裝了。安裝spark 配置檔案spark env.sh 驗證spark是否安裝成功。grep 命令進行過濾。下面是關於hdfs的命令上傳檔案 hdfs dfs put src dest 從本地的src位置上傳到hdfs的dest位置,src可以有多個,空格隔開複製檔案 ...

寒假學習進度 4

python學習不變的hello world coding utf 8 filename helloworld.py author by www.runoob.com 該例項輸出 hello world print hello world 運算子 usr bin python3 a 21b 10c...

寒假學習進度05

日期 2020.01.21 部落格期 129 星期二還是來說說近幾天的任務 1 爬蟲新進展可以通過特殊手段來獲取html內容對於有特殊跳轉fucntion的頁面需要特殊手段來解決 2 大資料實驗 1 7全部完成這7個實驗雖然已經全部完成了，但是我覺得自己掌握的不夠。老師給我們提的要求絕對不會是...

寒假學習進度

寒假學習進度

寒假學習進度 4

寒假學習進度05

相關推薦