一,spark歷史
誕生於2023年,加州大學伯克利分校rad實驗室的乙個研究專案,最初是基於hadoop mapreduce 的,
發現mapreduce在迭代式計算和互動式上低效,引入了記憶體儲存。
2023年3月份spark開源
2023年amp實驗室在spark上開發高階元件,例如:spark streaming
2023年轉移到了apache下,不就成了頂級專案
二,spark特點
1,spark是快速的: spark擴充了mapreduce計算模型,spark是基於記憶體的運算;
2,spark是通用的:spark的設計容納了其他分布式系統擁有的功能,批處理,迭代式計算,互動查詢和流處理等,
優點:降低了維護成本。
三,spark元件
spark包括多個緊密整合的元件
包含spark的基本功能,包括任務排程,記憶體管理,容錯機制等,
內部定義了rdds(彈性分布式資料集)
提供了很多api來建立和操控這些rdds
為其他元件提供底層的服務
spark sql :
spark處理結構化資料的庫,就行mysql,hive sql 一樣,
企業中用來做報表統計
spark streaming:
實時資料流處理元件,類似storm
其提高了api來提供實時流資料
企業主用來從kafka接受資料做實時統計
mlib:
乙個包含通用機器學習功能的包,machine learning lib,
包含分類,聚類,歸類等,還包括模型評估和資料匯入,都支援集群橫向擴充套件
graphx:
圖形處理的庫,並進行圖的並行運算,像spark sql ,spark streaming 一樣,它也繼承了rdds api
提供了各種圖的操作,和常用的圖演算法,例如:pangerank演算法,
應用場景:圖計算
cluster managers :
集群管理,spark自帶乙個集群管理是單獨排程器,常見的集群管理包括 hadoop yarn , apache mesos
spark 簡單實戰 Spark線性回歸簡單例子
這個課程以乙個專案來講解spark中怎麼使用線性回歸 邏輯回歸以及svm等演算法模型。專案主要是 航班的延遲時間,專案是按照如下的流程來講解 在模型訓練地方,詳細講解了交叉驗證的功能 老湯人工智慧 機器學習課程體系分為三部分 機器學習一之數學基礎 從微積分和線性代數兩個方面講解機器學習需要的數學知識...
Spark簡單使用
spark的乙個主要特點就是可以在記憶體中使用,因此他的計算速度比較快。在初學之前按照 quick start.html 中的示例來做一遍。先來初步理解一下操作流程。1.首先是搭建spark,網上有很多教程,cmd中最後執行pyspark 我們首先來分析spark資料夾中的 readme.md 檔案...
Spark各種庫介紹
spark是大資料處理的引擎,提供了4種資料處理的庫,還有很多第三方的庫。本篇文章僅簡單列舉spark的幾種庫及其特點。sql和資料幀,此模組支援結構化資料的處理。results spark.sql select from people names results.map lambda p p.na...