spark 2 2 0學習筆記1之概述

2021-08-13 19:22:07 字數 560 閱讀 5052

spark streaming—-spark 提供的對實時資料進行流式計算的元件/微批次架構

另一種是輸出操作(output operation),可以把資料寫入外部系統

mlib—-提供常見的機器學習(ml)功能的程式庫

graphx—-用來操作圖(比如社交網路的朋友關係圖)的程式庫

集群管理器—-啟動執行器節點,有時啟動驅動器節點()—-主節點/工作節點

spark執行器節點

任務於集群中排程並執行

spark 會使用60%的空間來儲存rdd,20% 儲存資料混洗操作產生的數

據,剩下的20% 留給使用者程式

driver program

sparkcontext

分片/分割槽—-執行在集群中不同的節點

建立—-讀取外部資料集/驅動器程式集合並行化

鍵值對rdd(pair rdd)—-用來進行聚合運算/元素為元組

action—-對rdd計算結果—-返回結果給驅動程式或者儲存到外部系統—-

spark sql 的結構化資料來源

資料庫與鍵值儲存

spark學習筆記(1)

apache spark是一種新型的快速通用的集群計算引擎。spark是基於記憶體計算的大資料計算框架,提高了在大資料環境下資料處理的實時性,同時保證了高容錯性和高可伸縮性,允許使用者將spark部署在大量廉價的硬體之上。形成集群。分布式計算 記憶體計算 容錯多計算正規化 byte,char,sho...

spark學習筆記(1)初來乍到

spark適用於需要多次操作特定資料集的應用場合。需要反覆操作的次數越多,所需讀取的資料量越大,受益越大,資料量小但是計算密集度較大的場合,受益就相對較小。是spark的核心概念是,指的是乙個唯讀的,可分割槽的分布式資料集,這個資料集的全部或部分可以快取在記憶體中,在多次計算間重用。這個很容易理解,...

LoRaWAN學習筆記1 LoRaWAN概念

lorawan學習筆記1 lorawan概念 樊渝江 踩了無數反步兵地雷,遭遇了幾場路邊炸彈,現在終於把產品搞出來了。其實很早就想寫點東西,但時間不巧,最近要過年了,還是利用空餘時間把東西理一下,這樣也能總結總結。也學學周播劇每週更新一次,如果有lorawan的疑問可以直接聯絡我,我教你掃雷和抄近道...