不完全對
因為我們只能使用spark core代替mr做離線計算,資料的儲存還是要依賴hdfs
spark+hadoop的組合,才是未來大資料領域最熱門的組合,也是最有前景的組合!
容易使用
一站式解決方案
可以執行在任意的平台
只提供兩個操作,map和reduce,表達力欠缺
乙個job只有map和reduce兩個階段
中間結果也放在hdfs檔案系統中(速度慢)
延遲高,只適用batch資料處理,對於互動式資料處理,實時資料處理的支援不夠
對於迭代式資料處理效能比較差
因此,hadoop mapreduce會被新一代的大資料處理平台替代是技術發展的趨勢,而在新一代的大資料處理平台中,spark目前得到了最廣泛的認可和支援
先停止正在執行的spark集群
spark-shell --master spark://uplooking01:7077
spark-shell --master spark://uplooking01:7077 --total-executor-cores 6 --executor-memory 1g
#如果不指定 預設使用每個worker上全部的核數,和每個worker上的1g記憶體
sc.textfile("hdfs://ns1/sparktest/").flatmap(_.split(",")).map((_,1)).reducebykey(_+_).collect
workerspark-submitter===>driver 大資料學習筆記 spark資源排程
val works new hashset workinfo 儲存worker節點資源資訊 val waitingdrivers new arraybuffer driverinfo 儲存driver節點申請的資源資訊 val works new hashsetworkinfo works 集合採用...
大資料學習之Spark(1)
2019.09.101 spark的特點 2 總體架構 包括 3 常見術語 兩個抽象部件 sparkcontext rdd 必須建立乙個sparkcontext類例項,且只能擁有乙個啟用的sparkcontext類例項 1 最簡便方法 val sc new sparkcontext 2 建立spar...
大資料學習筆記(六) Spark的RDD
建立 rdd是spark中的資料集,是唯讀的 rdd可以從集合,普通檔案系統,hdfs檔案系統中建立 scala建立rdd的方法 val lines1 sc.parallelize list aa bb val lines2 sc.textfile file opt spark readme.md ...