Spark的部署和技術選型

2021-06-26 14:37:10 字數 1533 閱讀 2198

在飛速發展的雲計算大資料時代,spark是繼hadoop之後,成為替代hadoop的下一代雲計算大資料核心技術,目前spark已經構建了自己的整個大資料處理生態系統,如流處理、圖技術、機器學習、nosql查詢等方面都有自己的技術,並且是apache頂級project,可以預計的是2023年下半年到2023年spark在社群和商業應用上會有爆發式的增長。

spark在業界的使用案例

spark是最新一代的大資料處理框架,在資料統計分析、資料探勘、流處理、圖技術、機器學習、誤差查詢等方面都有自己的技術,從我們的技術研究和長期業界觀察來看,spark會成為大資料時代集大成的計算框架。隨著2023年5月30日spark  1.0.0的發布,spark已經相對穩定,可以放心使用。       

spark如何部署到生產環境

對於spark該如何部署到生產環境中,spark亞太研究院院長和首席專家王家林介紹,spark是最新一代大資料計算框架,使用時需要單獨部署集群,spark集群部署方式主要有三種:standalone、yarn、mesos。一般而言,在部署的時候都會基於hdfs檔案儲存系統,所以,如果已經有hadoop平台,部署spark就非常容易,只需在平台上增加spark功能即可。目前,國內企業**使用的spark就是基於hadoop的yarn。當然也可以採用standalone和zookeeper的方式進行從無到有的構建spark集群,這也是一種常見和理想的選擇,並且這種方式也是官方推薦的。

企業如何做雲計算大資料部署的技術選型

現在,談到雲計算大資料話題的時候很多人還是多會提到hadoop,對spark了解的人還不是很多,如果企業有計畫要部署雲計算大資料的話,如何做技術選型是很重要的。對此,spark亞太研究院院長和首席專家王家林給出了如下建議:

如果企業以前沒有雲計算大資料集群,選擇使用spark要比hadoop更為明智,原因是:首先,hadoop本身的計算模型決定了它的所有工作都要轉化成map、shuffle和reduce等核心階段,由於每次計算都要從磁碟讀或者寫資料,而且整個計算模型需要網路傳輸,這就導致越來越難以忍受的延遲性。其次,hadoop還不能支援互動式應用。而spark可以輕鬆應對資料統計分析、資料探勘、流處理、圖技術、機器學習、誤差查詢等,且spark的「one stack  rule them all」的特性也導致部署的簡易性,省去多套系統部署的麻煩。

如果技術選型為spark,那麼,解決資料統計分析、實時流計算、資料探勘基本只需要乙個團隊即可,而如果採用hadoop則需要不同團隊做處理每一項專門的技術,極大的增加人力成本。

另外,對於已經有hadoop集群的公司而言,建議嘗試使用spark技術,可以從spark的shark或者spark sql開始,推薦使用spark的實時流處理和機器學習技術。

spark趨勢,中型企業如何抉擇

對於電信、金融等行業,使用spark同樣勢不可擋。在資料統計分析方面,spark比hadoop快幾十倍,如果是使用記憶體表,spark更是比hadoop快100倍以上。同時spark的實時流處理、機器學習、圖計算也非常高效,可以充分滿足電信、金融行業資料探勘的需要。

大資料Spark與Storm技術選型

先做乙個對比 對比點storm spark streaming 實時計算模型 純實時,來一條資料,處理一條資料 準實時,對乙個時間段內的資料收集起來,作為乙個rdd,再處理 實時計算延遲度 毫秒級秒級 吞吐量低 高事務機制 支援完善 支援,但不夠完善 健壯性 容錯性 zookeeper,acker,...

說說技術型創業團隊的技術選型

看到微博上 程式設計師雜誌 在徵集 一分鐘先生 的話題 如何做好公司 團隊的技術選型?其實大公司或者大一點的團隊選型幾乎不需要太多討論的 最後會不可避免的繞到技術官僚的話題上去。這裡我想簡單說說技術型創業團隊技術上的選型問題。擁抱開源技術 如果只能選擇微軟的技術路線,比如團隊幾個人只會用微軟的技術做...

限流器和熔斷器技術選型

大家應該聽過服務的 雪崩效應 在微服務開發中,如果某個底層的服務出現故障,一直阻塞,那麼上層依賴它的服務堆積的執行緒會越來越多,上上層的服務也會隨之堆積,堆積到上限後,導致整個系統崩潰。目前我們的系統也頻繁出現此類問題,導致閘道器需要不斷的擴容,目前在閘道器上,已經通過在servlet中採用執行緒池...