大資料分析平台Hadoop與Spark之爭

2021-09-23 05:04:50 字數 1511 閱讀 7252

zd至頂網軟體頻道訊息 原創文章(文/鄧曉蕾): 有人把大資料稱為資訊資產、有人稱為金礦、甚至社會財富。而大資料,即,無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合。gartne認為「大資料」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。大資料並不在「大」,而在於「有用」。價值含量、挖掘成本比數量更為重要。對於很多行業而言,如何利用這些大規模資料是成為贏得競爭的關鍵。大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對這些含有意義的資料進行專業化處理。換言之,如果把大資料比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對資料的「加工能力」,通過「加工」實現資料的「增值」。

隨著雲時代的來臨,依託雲計算的分布式處理、分布式資料庫和雲儲存、虛擬化技術等技術對海量資料進行分布式資料探勘,分析、洞察越來越被看重。

對於大資料來說,最重要的還是對於資料的分析,從裡面尋找有價值的資料幫助企業作出更好的商業決策。而如何利用大資料分析,少不了大資料分析的平台,hadoop被公認為是新一代的大資料處理平台,emc、ibm、informatica、microsoft以及oracle都投入了hadoop的懷抱。

這樣的平台是複雜的,具有相當技術的門檻,但是每個行業都少不了黑馬。spark從2023年誕生到如今的成熟,不過短短幾年。spark的核心rdd(resilient distributed datasets),以及流處理,sql智慧型分析,機器學習等功能。spark提供的基於rdd的一體化解決方案,將mapreduce、streaming、sql、machine learning、graph processing等模型統一到乙個平台下,並以一致的api公開,並提供相同的部署方案,使得spark的工程應用領域變得更加廣泛。

在大資料領域,只有深挖資料科學領域,走在學術前沿,才能在底層演算法和模型方面走在前面,從而佔據領先地位。

對於hadoop與spark兩者之間的合作與競爭,在業內不比大資料本身的熱度少多少。知乎上有位大資料工程師@網易如此來解釋,」hadoop包括yarn和hdfs以及mapreduce,說spark代替hadoop應該說是代替mapreduce。「mapreduce的缺陷很多,最大的缺陷之一是map + reduce的模型。

另一位知乎網友@碼農從自身的感受如此談到:

1. 相同的演算法,spark比hadoop快數倍,如果是一些迭代或者要對資料反覆讀取的演算法,spark比hadoop快數十倍至上百倍

2. spark對於資料的操作種類更多,對於一些比較特殊的計算需求,比如求兩個集合的交集並集,spark都有函式直接計算,而hadoop實現這樣的計算無比繁瑣。

spark的特色在於它首先為大資料應用提供了乙個統一的平台。從資料處理層面看,模型可以分為批處理、互動式、流處理等多種方式;而從大資料平台而言,已有成熟的hadoop、cassandra、mesos以及其他雲的**商。

據**,spark將會在五年以後全面替代hadoop的mapreduce。由此可見,大資料領域技術更迭十分迅速。那麼,在日新月異的大資料領域,spark又能主導分布式計算多久呢?之後,又是那種技術替代spark呢?

原文發布時間為:2023年9月11日

大資料平台搭建 基於Hadoop的資料分析平台

網際網路的發展,帶來了各種資料的爆發式增長,所有接入網際網路的相關操作行為,都化為虛擬的資料被記錄了下來。大資料時代的帶來,乙個明顯的變化就是全樣本資料分析,面對tb pb級及以上的資料規模,hadoop成為主流選擇。企業要進行大規模的資料分析,基於開源的hadoop及其生態圈來搭建起大資料系統平台...

EXCEEDDATA 工程大資料分析平台

在此背景下,整車廠研發部門關心的是 如何將企業內部的研發 實驗 測試 生產資料,社會使用者的用車資料,網際網路第三方資料等結合起來,將異構資料和同構資料整合到一起,並在此基礎上,實現業務系統 分析系統和服務系統的一體化 怎樣利用深度的駕駛員行為感知 智慧型的車輛預防性維護 與實時的環境狀態互動,通過...

大資料分析平台 專案2

注意的點 為什麼這麼寫?能不能加些其它的列操作?資料!什麼樣的資料!object模組下建立object main模組 建立usersession object類 思路 session的步長和時間 我從首頁進入到商品詳情到購物車 使用者到底跳轉了多少頁面就是步長 當這個資料統計之後 這個使用者在網頁中...