Spark基礎知識系列（1）

spark的設計目的是克服mapreduce模型缺陷，能在多場景處理大規模資料。它的計算

模型是基於記憶體的抽象資料型別rdd.適用於批處理,迭代式計算模型。

spark體系結構包括spark sql,spark streaming,mllib,graphx.

core庫中包括：

spark context

抽象資料集rdd

排程器scheduler

shuffle

serializer等

hadoop

因其設計之初沒有考慮到效率，導致在迭代計算問題時效率很低，主要原因歸結於其mapreduce計算模型太單一且計算過程中的shuffle過程對本地磁碟的i/o消耗太大，不能適應複雜需求。其次，hadoop面對sql互動式查詢場景,實時流處理場景時力不從心，不得不與第三方框架相結合，從而導致在不同型別業務在銜接過程中因涉及不同的資料格式，因而在共享和轉換資料過程中消耗大量資源。

spark

作為基於記憶體計算大資料平台以其高速、多場景適用的特點脫穎而出.

設計目的是全棧式解決批處理、結構化資料查詢、流計算等場景，此外還體現在對儲存層（hdfs、cassandra）和資源管理層（mesos、yarn）的支援。

spark的核心rdd抽象資料集能在不同的應用中使用，大大減少了資料轉換的消耗和運維管理的資源占用。

Spark基礎知識系列（1）

python系列知識回顧基礎知識 1

Spark學習筆記 Spark基礎知識

基礎知識1

Spark基礎知識系列（1）

python系列知識回顧基礎知識 1

Spark學習筆記 Spark基礎知識

基礎知識1

相關推薦