spark學習 基本概念描述

2021-08-08 12:47:04 字數 494 閱讀 1098

什麼是spark?
是apache旗下的一款開源專案,通俗的理解就是乙個分布式的大資料處理框架,有乙個很大優點,一棧式解決方案

spark與hadoop相比有哪些優點?
為什麼spark比hadoop快?因為spark基於記憶體進行計算而hadoop基於磁碟進行計算,hadoop把每次計算的結果存回磁碟並在下次需要使用時重新從磁碟讀取這就導致會有大量的io操作,時間會很慢。

hadoop進行計算是按部就班的進行,但是spark會事先將資料讀取進來之後把整個運算過程繪製成一幅有向無環圖,具有方向性,可以對路徑進行優化。

他可以和已存在的hadoop資料整合

spark core ?
spark core是乙個分布式大資料處理框架,包含spark的基本功能,他不僅比mapreduce快很多,並且提供量比mapreduce更多的操作函式,它具有核心元件rdd。彈性分布式資料集。

Spark基本概念

下面是spark的乙個日誌計數示例,該程式演示了spark的計算模型 下面是spark執行時涉及的各元件的概況圖 從rdd轉換和儲存角度,使用者程式對rdd通過多個函式進行操作,將rdd進行轉換。block manager管理rdd的物理分割槽,每個block就是節點上對應的乙個資料塊,可以儲存在記...

Spark基本概念

a.driver programs通過sparkcontent物件訪問spark b.sparkcontent代表和乙個集群的鏈結 c.在shell中sparkcontent物件自動建立好了,就是sc 主要分為兩種 python shell和 scala shell 現在主要介紹scala shel...

spark學習起步(一) 基本概念

rdd 彈性分布式資料集 主要特點 1,資料全集被分割成多個正相交的資料子集,每個資料子集可以被派發到任一計算節點進行處理 2,計算的中間結果會被儲存。同乙個計算結果會被儲存在多,個計算節點 3,如果某乙個資料子集在處理中出現問題,該資料子集的處理會被重新排程進而重新處理。rdd的操作 轉換,act...