為什麼要做checkpoint?
1.執行出的中間結果往往很重要,所以為了保證資料的安全性,要checkpoint
2.最好把checkpoint到hdfs中,這樣便於該集群所有的節點訪問到
3.在checkpoint之前最好先cache一下,這樣先把資料放到快取中。便於執行任務的呼叫,也便於在checkpoint的時候直接從快取拿到資料
在什麼時候做checkpoint?
在發生shuffle之後做checkpoint
checkpoint步驟:
1.建立checkpoint儲存目錄
sc.setcheckpointdir("hdfs://master4:9000/ck0001")
2.rdd1.cache()
3.rdd1.checkpoint()
事例測試:
1、啟動spark-shell
/opt/spark/bin/spark-shell
2.設定checkpoint目錄
sc.setcheckpointdir("hdfs://master4:9000/ck0001")
3.讀取wc目錄下的檔案,統計詞頻
val res=sc.textfile("hdfs://master4:9000/wc/").flatmap(_.split(" ")).map(
(_,1)).reducebykey(_+_)
4. 設定快取
res.cache()
5. 開始checkpoint,注意開啟checkpoint只會建立乙個空的資料夾ck0001,但是不會check。
res.checkpoint()
6. collect後開始check
res.collect
為什麼要做TDD?
tdd 測試驅動開發 在企業裡面是乙個熱點話題,即使tdd這個思想已經出現了20 30年。至今還有很多的公司和開發者在左右搖擺,到底是否要使用tdd。所以這篇文章筆者就和大家分享一下,為什麼需要做tdd。首先看看各個公司對tdd的看法 google 如果在tdd階段發現乙個bug,修復的成本就是5美...
為什麼為什麼為什麼為什麼為什麼你要做一名程式設計師?
from 本文是從 why why why why why are you a developer?這篇文章翻譯而來。做乙個程式設計師很忙,你需要去寫 去建立meme,去進行測試,以及隨時關注最新最熱的gem 開源軟體技術。最近,我一直在想讓自己的節奏慢下來,去做一些心裡一直想做但沒有去做的事,去思...
為什麼要做介面測試
現在介面測試很多團隊和企業都在要求,其實介面測試一直都存在,為何現在會突然開始要求更高呢?自動化測試分層概念的提出 到目前為止 ui 自動化都很難達到預期的效果,而單元測試成本和難度依舊太高 移動應用興起,出現多種前端的情況,ui 測試成本變高 微服務架構的流行,模組與模組的互動變成了服務與服務之間...