rdd依賴關係
(1)rdd 血緣關係
val filerdd: rdd[string] = sc.textfile("input/1.txt")
println(filerdd.todebugstring)
println("----------------------")
val wordrdd: rdd[string] = filerdd.flatmap(_.split(" "))
println(wordrdd.todebugstring)
println("----------------------")
val maprdd: rdd[(string, int)] = wordrdd.map((_,1))
println(maprdd.todebugstring)
println("----------------------")
val resultrdd: rdd[(string, int)] = maprdd.reducebykey(_+_)
println(resultrdd.todebugstring)
resultrdd.collect()
(2)rdd 依賴關係
val sc: sparkcontext = new sparkcontext(conf)
val filerdd: rdd[string] = sc.textfile("input/1.txt")
println(filerdd.dependencies)
println("----------------------")
val wordrdd: rdd[string] = filerdd.flatmap(_.split(" "))
println(wordrdd.dependencies)
println("----------------------")
val maprdd: rdd[(string, int)] = wordrdd.map((_,1))
println(maprdd.dependencies)
println("----------------------")
val resultrdd: rdd[(string, int)] = maprdd.reducebykey(_+_)
println(resultrdd.dependencies)
resultrdd.collect()
(3)rdd依賴關係分為窄依賴和寬依賴
窄依賴:乙個rdd 的 partition 被另乙個rdd 的乙個 partition 使用
寬依賴:乙個rdd 的 partition 被另乙個rdd 的多個 partition 使用
寒假學習進度
今天就是踐行spark的安裝了。安裝spark 配置檔案spark env.sh 驗證spark是否安裝成功。grep 命令進行過濾。下面是關於hdfs的命令 上傳檔案 hdfs dfs put src dest 從本地的src位置上傳到hdfs的dest位置,src可以有多個,空格隔開 複製檔案 ...
寒假學習進度 4
python學習 不變的hello world coding utf 8 filename helloworld.py author by www.runoob.com 該例項輸出 hello world print hello world 運算子 usr bin python3 a 21b 10c...
寒假學習進度05
日期 2020.01.21 部落格期 129 星期二還是來說說近幾天的任務 1 爬蟲新進展 可以通過特殊手段來獲取html內容 對於有特殊跳轉fucntion的頁面需要特殊手段來解決 2 大資料實驗 1 7全部完成 這7個實驗雖然已經全部完成了,但是我覺得自己掌握的不夠。老師給我們提的要求絕對不會是...