一 hadoop和spark的區別

2021-08-13 14:03:38 字數 498 閱讀 4195

hadoop是基於磁碟的,它的運算結果儲存在磁碟當中;而spark的運算是基於記憶體的。因此spark的運算速度是

hadoop的100倍;即使在磁碟當中運算,spark也是hadoop的10倍左右,原因就是spark具有優秀的作業排程策略。

故spark的速度快與hadoop的兩個原因:

(1)spark是基於記憶體,hadoop基於磁碟:

在hadoop中hdfs用於資料的儲存,mapreduce用於計算。

mapreduce:從磁碟中讀取檔案->把迭代結果儲存到磁碟中->再從磁碟中讀取檔案->..................

spark:從磁碟中讀取檔案->把迭代後的結果儲存到記憶體當中->再從記憶體中讀取資料->..................

spark的計算速度是hadoop的100倍,即使再磁碟中運算元據也是hadoop'的10倍。

(2)spark具有優秀的作業排程

策略(使用了有向無環圖,關於這部分會在rdd學習模組中介紹)。

Hadoop 和 Spark 的異同

談到大資料,相信大家對hadoop和apache spark這兩個名字並不陌生。但我們往往對它們的理解只是提留在字面上,並沒有對它們進行深入的思考,下面不妨跟我一塊看下它們究竟有什麼異同。首先,hadoop和apache spark兩者都是大資料框架,但是各自存在的目的不盡相同。hadoop實質上更...

hadoop和spark的異同

解決問題的層面不一樣 首先,hadoop和apache spark兩者都是大資料框架,但是各自存在的目的不盡相同。hadoop實質上更多是乙個分布式資料基礎設施 它將巨大的資料集分派到乙個由普通計算機組成的集群中的多個節點進行儲存,意味著您不需要購買和維護昂貴的伺服器硬體。同時,hadoop還會索引...

Hadoop和Spark的異同

談到大資料,相信大家對hadoop和apache spark這兩個名字並不陌生。但我們往往對它們的理解只是提留在字面上,並沒有對它們進行深入的思考,下面不妨跟我一塊看下它們究竟有什麼異同。解決問題的層面不一樣 首先,hadoop和apache spark兩者都是大資料框架,但是各自存在的目的不盡相同...