Spark的這些事二幾個概念

1、sparkcontext [經常簡稱為 sc]

2、定義乙個 spark 應用程式所需要的三大步驟的邏輯：載入資料集，處理資料，結果展示。

載入資料集，這裡的資料集大概分為兩組: -一種是不變的，靜態資料集，大多數場景都是從資料庫，檔案系統上面載入進來

-另一種是動態的資料集，一般做 streaming 應用的時候用到，大多數場景是通過 socket 來載入資料，複雜場景可以通過檔案系統，akka actors，kafka，kinesis 和一些第三方提供的 streaming api [twitter 等] 來作為資料來源載入資料

處理資料，這是重點中的重點，不過不外乎都是從三個方面來完成這裡的資料清理，邏輯運算等: -自定義的一些複雜處理函式或者第三方包 [下面我們稱為函式集] -通過 rdd 的 transform，action 和函式集來完成整個處理，計算流程

-通過 rdd 提供的 cache，persist，checkpoint 方法把一些處理流程中的重要處理節點和常用資料快取和備份，以加速處理，計算速度

3、有向無環圖（dga）：

有向無環圖，有向即有方向，無環即不可逆，其實更詳細的說是乙個時間上的先來後到，即祖先與子孫的關係，是不可逆的。

4、rdd

關於rdd的一篇**翻譯

spark的這些事系列文章：

spark的這些事《一》——windows下spark開發環境搭建

spark的這些事《二》——幾個概念

spark的這些事《三》——spark常用的transformations 和actions

Spark的這些事 二 幾個概念