Spark和Hadoop,孰優孰劣?

2021-09-17 06:26:52 字數 1206 閱讀 1678

spark已經取代hadoop成為最活躍的開源大資料專案。但是,在選擇大資料框架時,企業不能因此就厚此薄彼。近日,著名大資料專家bernard marr

在一篇文章中分析了spark和hadoop的異同。

\\ hadoop和spark均是大資料框架,都提供了一些執行常見大資料任務的工具。但確切地說,它們所執行的任務並不相同,彼此也並不排斥。雖然在特定的情況下,spark據稱要比hadoop快100倍,但它本身沒有乙個分布式儲存系統。而分布式儲存是如今許多大資料專案的基礎。它可以將pb級的資料集儲存在幾乎無限數量的普通計算機的硬碟上,並提供了良好的可擴充套件性,只需要隨著資料集的增大增加硬碟。因此,spark需要乙個第三方的分布式儲存。也正是因為這個原因,許多大資料專案都將spark安裝在hadoop之上。這樣,spark的高階分析應用程式就可以使用儲存在hdfs中的資料了。

\\ 與hadoop相比,spark真正的優勢在於速度。spark的大部分操作都是在記憶體中,而hadoop的mapreduce系統會在每次操作之後將所有資料寫回到物理儲存介質上。這是為了確保在出現問題時能夠完全恢復,但spark的彈性分布式資料儲存也能實現這一點。

\\\\

\\ 另外,在高階資料處理(如實時流處理和機器學習)方面,spark的功能要勝過hadoop。在bernard看來,這一點連同其速度優勢是spark越來越受歡迎的真正原因。實時處理意味著可以在資料捕獲的瞬間將其提交給分析型應用程式,並立即獲得反饋。在各種各樣的大資料應用程式中,這種處理的用途越來越多,比如,零售商使用的推薦引擎、製造業中的工業機械效能監控。spark平台的速度和流資料處理能力也非常適合機器學習演算法。這類演算法可以自我學習和改進,直到找到問題的理想解決方案。這種技術是最先進製造系統(如**零件何時損壞)和無人駕駛汽車的核心。spark有自己的機器學習庫mlib,而hadoop系統則需要借助第三方機器學習庫,如

apache mahout。

\\ 實際上,雖然spark和hadoop存在一些功能上的重疊,但它們都不是商業產品,並不存在真正的競爭關係,而通過為這類免費系統提供技術支援贏利的公司往往同時提供兩種服務。例如,cloudera就既提供spark服務也提供hadoop服務,並會根據客戶的需要提供最合適的建議。

\\ bernard認為,雖然spark發展迅速,但它尚處於起步階段,安全和技術支援基礎設施方還不發達。在他看來,spark在開源社群活躍度的上公升,表明企業使用者正在尋找已儲存資料的創新用法。

\\ 感謝郭蕾對本文的審校。

\\

何必分個孰優孰劣呢?!

最近在相當多的bbs上看到這個sbo和哪個r3相比,和金算盤,用友,金蝶相比。很是心煩,也頗為不屑。我的blog也不是太多人來看,大部分是關心業內的一些人士吧,所以我才會盡可能地說些實在的東西,不過我的文筆不是太好,有些言猶未盡的味道,還請大家見諒。幸好我的blog也不全是說給別人聽的,主要還是練練...

各種競爭規則孰優孰劣

課堂回顧 你好,今天我要接著昨天留給你的問題。我們講了,世界上有各種各樣不同的競爭規則。今天我要給你解釋,到底哪種競爭規則更好。1.沒有任何乙個規則比別的規則更公平 昨天我留給你的問題是,所有這些競爭規則裡面,哪乙個更公平?昨天到今天相差的時間只有24小時,24小時是不夠你思考,到底哪乙個辦法,哪乙...

解析 雲儲存和實體儲存 孰優孰略?

尤其是,國內使用者普遍沒有付費使用網路服務的消費意識,這讓有著巨大運營成本,卻沒有多種有效的盈利模式的網盤企業,承擔著相當的運營風險和壓力,一著不慎,就有可能步前輩之後塵。雲儲存和實體儲存 孰優孰略?網盤,作為一種基於網路的資料儲存的工具。在網盤尚未大規模未出現之前,移動儲存裝置一直是人們儲存資料的...