Spark Spark發展歷程與基本概念

2022-03-23 11:13:17 字數 970 閱讀 6664

找了一張hadoop十年的生態發展圖:

apache spark是乙個開源簇運算框架,最初是由加州大學柏克萊分校amplab所開發。相對於hadoop的mapreduce會在執行完工作後將中介資料存放到磁碟中,spark使用了記憶體內運算技術,能在資料尚未寫入硬碟時即在記憶體內分析運算。spark在記憶體內執行程式的運算速度能做到比hadoop mapreduce的運算速度快上100倍,即便是執行程式於硬碟時,spark也能快上10倍速度。spark允許使用者將資料載入至簇記憶體,並多次對其進行查詢,非常適合用於[機器學習]。

使用spark需要搭配簇管理員和分布式儲存系統。spark支援獨立模式(本地spark簇)、hadoop yarn或apache mesos的簇管理。 在分布式儲存方面,spark可以和hdfs、 cassandra、openstack swift和amazon s3等介面搭載。 spark也支援偽分布式(pseudo-distributed)本地模式,不過通常只用於開發或測試時以本機檔案系統取代分布式儲存系統。在這樣的情況下,spark僅在一台機器上使用每個cpu核心執行程式。

spark作為hadoop生態中重要的一員,其發展速度堪稱恐怖,不過其作為乙個完整的技術棧,在技術和環境的雙重刺激下,得到如此多的關注也是有依據的。核心在於記憶體計算模型代替hadoop生態的mapreduce離線計算模型,用更加豐富transformation和action運算元來替代map,reduce兩種運算元。

說起hadoop,可能第乙個想到的就是mapreduce,mapreduce是hadoop的核心,但不是全部,hadoop早已經不是某個離線批處理框架了,而是代表了整個hadoop生態系統,從頁首的圖可以看到spark只是整個hadoop生態系統的一部分。spark僅僅能夠代替hadoop的mapreduce框架做記憶體計算。無論是互動式查詢還是實時流處理資料均**與hadoop生態的元件:hbase,hive,hdfs,kafka...所以說spark與hadoop是密不可分的。

Amazon 發展歷程與前景

亞馬遜 amazon 作為 財富世界500強 2012年全球排名206 以網路書店起家的公司,是如何做到霸佔美國電子商務市場?三星 sumsung 20 ibm 57 微軟 microsoft 119 亞馬遜 amazon 206 谷歌 google 277 甲骨文 oracle 300 華為 hu...

Linux的發展歷程與變遷

最開始,linux 作為創作者 linus torvalds 的 乙個愛好 如今,已然擁有超高的人氣,這過程值得一講。1991 linux 開始於 linus torvalds 在 usenet 上的乙個帖子,說它 只是乙個愛好 1992 linux 發布第乙個 gpl 版本,最初是依據一些商業限制...

web發展歷程

每次開啟瀏覽器想要去找一些時候,總是要先找度娘 www.baidu.com 通過度娘我們可以搜尋到全網的資源,但是無論開啟那個 開頭的永遠是那雷打不動的三個 w 呢?www其實是 的姓,就好像有人姓趙,有人姓錢。這個姓誰起的呢?是一位英國計算機科學家 蒂姆 伯納斯 李。英國科學家蒂姆 伯納斯 李於1...