spark簡單介紹

2021-08-20 21:00:32 字數 1146 閱讀 3330

一,spark歷史

誕生於2023年,加州大學伯克利分校rad實驗室的乙個研究專案,最初是基於hadoop mapreduce 的,

發現mapreduce在迭代式計算和互動式上低效,引入了記憶體儲存。

2023年3月份spark開源

2023年amp實驗室在spark上開發高階元件,例如:spark streaming

2023年轉移到了apache下,不就成了頂級專案

二,spark特點

1,spark是快速的: spark擴充了mapreduce計算模型,spark是基於記憶體的運算;

2,spark是通用的:spark的設計容納了其他分布式系統擁有的功能,批處理,迭代式計算,互動查詢和流處理等,

優點:降低了維護成本。

三,spark元件

spark包括多個緊密整合的元件

包含spark的基本功能,包括任務排程,記憶體管理,容錯機制等,

內部定義了rdds(彈性分布式資料集)

提供了很多api來建立和操控這些rdds

為其他元件提供底層的服務

spark sql :

spark處理結構化資料的庫,就行mysql,hive sql 一樣,

企業中用來做報表統計

spark streaming:

實時資料流處理元件,類似storm

其提高了api來提供實時流資料

企業主用來從kafka接受資料做實時統計

mlib:

乙個包含通用機器學習功能的包,machine learning lib,

包含分類,聚類,歸類等,還包括模型評估和資料匯入,都支援集群橫向擴充套件

graphx:

圖形處理的庫,並進行圖的並行運算,像spark sql ,spark streaming 一樣,它也繼承了rdds api

提供了各種圖的操作,和常用的圖演算法,例如:pangerank演算法,

應用場景:圖計算

cluster managers :

集群管理,spark自帶乙個集群管理是單獨排程器,常見的集群管理包括 hadoop yarn , apache mesos

spark 簡單實戰 Spark線性回歸簡單例子

這個課程以乙個專案來講解spark中怎麼使用線性回歸 邏輯回歸以及svm等演算法模型。專案主要是 航班的延遲時間,專案是按照如下的流程來講解 在模型訓練地方,詳細講解了交叉驗證的功能 老湯人工智慧 機器學習課程體系分為三部分 機器學習一之數學基礎 從微積分和線性代數兩個方面講解機器學習需要的數學知識...

Spark簡單使用

spark的乙個主要特點就是可以在記憶體中使用,因此他的計算速度比較快。在初學之前按照 quick start.html 中的示例來做一遍。先來初步理解一下操作流程。1.首先是搭建spark,網上有很多教程,cmd中最後執行pyspark 我們首先來分析spark資料夾中的 readme.md 檔案...

Spark各種庫介紹

spark是大資料處理的引擎,提供了4種資料處理的庫,還有很多第三方的庫。本篇文章僅簡單列舉spark的幾種庫及其特點。sql和資料幀,此模組支援結構化資料的處理。results spark.sql select from people names results.map lambda p p.na...