Spark各種庫介紹

2021-10-03 07:52:13 字數 506 閱讀 2912

spark是大資料處理的引擎,提供了4種資料處理的庫,還有很多第三方的庫。本篇文章僅簡單列舉spark的幾種庫及其特點。

sql和資料幀,此模組支援結構化資料的處理。

results = spark.sql(

"select * from people"

)names = results.map(lambda p: p.name)

spark.read.json(

"s3n://..."

).registertemptable(

"json"

)results = spark.sql(

"""select *

from people

join json ..."

"")

spark 流,此模組簡化了大規模的容錯的流式應用的構建。

machine learning 機器學習庫

圖形處理,圖形的平行計算。

spark簡單介紹

一,spark歷史 誕生於2009年,加州大學伯克利分校rad實驗室的乙個研究專案,最初是基於hadoop mapreduce 的,發現mapreduce在迭代式計算和互動式上低效,引入了記憶體儲存。2010年3月份spark開源 2011年amp實驗室在spark上開發高階元件,例如 spark ...

各種協議介紹

背景 最近聽了老大講到dubbo。使用的rpc協議。說rpc協議快,http協議包含了太多的內容。涉及太多的單詞,感覺自己都要弄混了。就去梳理一下。rpc 遠端過程呼叫,包含傳輸協議和編碼協議,一般使用的tcp協議,也可以基於http協議 http 超文字傳輸協議 基於tcp協議 rest 架構風格...

Spark的Shuffle過程介紹

spark的shuffle過程介紹 shuffle writer spark豐富了任務型別,有些任務之間資料流轉不需要通過shuffle,但是有些任務之間還是需要通過shuffle來傳遞資料,比如wide dependency的group by key。spark中需要shuffle輸出的map任務...