spark是大資料處理的引擎,提供了4種資料處理的庫,還有很多第三方的庫。本篇文章僅簡單列舉spark的幾種庫及其特點。
sql和資料幀,此模組支援結構化資料的處理。
results = spark.sql(
"select * from people"
)names = results.map(lambda p: p.name)
spark.read.json(
"s3n://..."
).registertemptable(
"json"
)results = spark.sql(
"""select *
from people
join json ..."
"")
spark 流,此模組簡化了大規模的容錯的流式應用的構建。
machine learning 機器學習庫
圖形處理,圖形的平行計算。
spark簡單介紹
一,spark歷史 誕生於2009年,加州大學伯克利分校rad實驗室的乙個研究專案,最初是基於hadoop mapreduce 的,發現mapreduce在迭代式計算和互動式上低效,引入了記憶體儲存。2010年3月份spark開源 2011年amp實驗室在spark上開發高階元件,例如 spark ...
各種協議介紹
背景 最近聽了老大講到dubbo。使用的rpc協議。說rpc協議快,http協議包含了太多的內容。涉及太多的單詞,感覺自己都要弄混了。就去梳理一下。rpc 遠端過程呼叫,包含傳輸協議和編碼協議,一般使用的tcp協議,也可以基於http協議 http 超文字傳輸協議 基於tcp協議 rest 架構風格...
Spark的Shuffle過程介紹
spark的shuffle過程介紹 shuffle writer spark豐富了任務型別,有些任務之間資料流轉不需要通過shuffle,但是有些任務之間還是需要通過shuffle來傳遞資料,比如wide dependency的group by key。spark中需要shuffle輸出的map任務...