Spark各種庫介紹

spark是大資料處理的引擎，提供了4種資料處理的庫，還有很多第三方的庫。本篇文章僅簡單列舉spark的幾種庫及其特點。

sql和資料幀，此模組支援結構化資料的處理。

results = spark.sql(
"select * from people"
)names = results.map(lambda p: p.name)

spark.read.json(
"s3n://..."
).registertemptable(
"json"
)results = spark.sql(
"""select *
from people
join json ..."
"")

spark 流，此模組簡化了大規模的容錯的流式應用的構建。

machine learning 機器學習庫

圖形處理，圖形的平行計算。

spark簡單介紹

一，spark歷史誕生於2009年，加州大學伯克利分校rad實驗室的乙個研究專案，最初是基於hadoop mapreduce 的，發現mapreduce在迭代式計算和互動式上低效，引入了記憶體儲存。2010年3月份spark開源 2011年amp實驗室在spark上開發高階元件，例如 spark ...

各種協議介紹

背景最近聽了老大講到dubbo。使用的rpc協議。說rpc協議快，http協議包含了太多的內容。涉及太多的單詞，感覺自己都要弄混了。就去梳理一下。rpc 遠端過程呼叫，包含傳輸協議和編碼協議,一般使用的tcp協議，也可以基於http協議 http 超文字傳輸協議基於tcp協議 rest 架構風格...

Spark的Shuffle過程介紹

spark的shuffle過程介紹 shuffle writer spark豐富了任務型別，有些任務之間資料流轉不需要通過shuffle，但是有些任務之間還是需要通過shuffle來傳遞資料，比如wide dependency的group by key。spark中需要shuffle輸出的map任務...

Spark各種庫介紹

spark簡單介紹

各種協議介紹

Spark的Shuffle過程介紹

相關推薦