spark的設計目的是克服mapreduce模型缺陷,能在多場景處理大規模資料。它的計算
模型是基於記憶體的抽象資料型別rdd.適用於批處理,迭代式計算模型。
spark體系結構包括spark sql,spark streaming,mllib,graphx.
core庫中包括:
spark context
抽象資料集rdd
排程器scheduler
shuffle
serializer等
hadoop
因其設計之初沒有考慮到效率,導致在迭代計算問題時效率很低,主要原因歸結於其mapreduce計算模型太單一且計算過程中的shuffle過程對本地磁碟的i/o消耗太大,不能適應複雜需求。其次,hadoop面對sql互動式查詢場景,實時流處理場景時力不從心,不得不與第三方框架相結合,從而導致在不同型別業務在銜接過程中因涉及不同的資料格式,因而在共享和轉換資料過程中消耗大量資源。
spark
作為基於記憶體計算大資料平台以其高速、多場景適用的特點脫穎而出.
設計目的是全棧式解決批處理、結構化資料查詢、流計算等場景,此外還體現在對儲存層(hdfs、cassandra)和資源管理層(mesos、yarn)的支援。
spark的核心rdd抽象資料集能在不同的應用中使用,大大減少了資料轉換的消耗和運維管理的資源占用。
python系列知識回顧基礎知識 1
注意的點 input 雙引號裡面表示提示詞 temp str 1 表示取出最後一位 in f f 表示該字元是否是列表中的任意乙個 f 或者 f in用來判斷是否在列表中 temp str 0 1 表示乙個列表 從temp str字串中 取第一位到最後一位的前一位 即取出除單位外的溫度數字 eval...
Spark學習筆記 Spark基礎知識
1 rdd表示分布在多個計算節點上的可以並行操作的元素集合,是spark主要的變成抽象。spark streaming 是 spark 提供的對實時資料進行流式計算的元件 spark是乙個用於集群計算的通用計算框架,因此被應用於各種各樣的應用程式 2 從上層來看,每個saprk應用都有乙個驅動器程式...
基礎知識1
puts hello world if false class person count 0 def initialize name age 18 name name age age motherland china enddef talk print name name n puts age ag...