rdd:彈性分布式資料集
主要特點:
1,資料全集被分割成多個正相交的資料子集,每個資料子集可以被派發到任一計算節點進行處理
2,計算的中間結果會被儲存。同乙個計算結果會被儲存在多,個計算節點
3,如果某乙個資料子集在處理中出現問題,該資料子集的處理會被重新排程進而重新處理。
rdd的操作:
轉換,action
轉換是乙個規劃的過程,並不運算
action才是真正執行提交job。
作業的提交:由action操作觸發
spark接收到job會:
1,rdd依賴分析。rdd依賴形成乙個有向無環圖dag,依賴關係的劃分由dagscheduler負責
2,根據劃分結果乙個job分成多個stage
3,stage確定完,向taskscheduler提交任務集。而taskschedule負責將這些任務分發到集群的計算節點。
Spark基本概念
下面是spark的乙個日誌計數示例,該程式演示了spark的計算模型 下面是spark執行時涉及的各元件的概況圖 從rdd轉換和儲存角度,使用者程式對rdd通過多個函式進行操作,將rdd進行轉換。block manager管理rdd的物理分割槽,每個block就是節點上對應的乙個資料塊,可以儲存在記...
Spark基本概念
a.driver programs通過sparkcontent物件訪問spark b.sparkcontent代表和乙個集群的鏈結 c.在shell中sparkcontent物件自動建立好了,就是sc 主要分為兩種 python shell和 scala shell 現在主要介紹scala shel...
spark學習 基本概念描述
什麼是spark?是apache旗下的一款開源專案,通俗的理解就是乙個分布式的大資料處理框架,有乙個很大優點,一棧式解決方案 spark與hadoop相比有哪些優點?為什麼spark比hadoop快?因為spark基於記憶體進行計算而hadoop基於磁碟進行計算,hadoop把每次計算的結果存回磁碟...