spark的生態圈
1.spark的設計遵循「乙個軟體棧滿足不同應用場景」的理念,逐漸形成一套完整的生態系統
2.spark可以部署在資源管理器yarn之上,提供一站式大資料解決方案
3.spark所提供的的生態系統可對應以下三種場景:
複雜的批量資料處理:通常時間跨度在數十分鐘到數小時之間
基於歷史資料的互動式查詢:通常時間跨度在數十秒到數分鐘之間
基於實時資料的資料處理:通常時間跨度在數百毫秒到數秒之間
4.spark生態系統已經成為伯克利資料分析棧(bdas)中重要的組成部分
5.spark生態系統主要包括:
spark sql是spark用來操作結構化資料的程式包
spark streaming
支援多種資料來源 提供視窗操作
提供了運算元據流的api,並且與spark core中的rdd api高度對應
允許操作記憶體、硬碟資料和實時資料
大大降低了編寫程式的門檻
mllib
1.spark mllib包含了多種演算法和工具
2.mllib提供了多種機器學習演算法:
分類:邏輯斯蒂回歸、樸素貝斯,……
回歸:廣義線性回歸、生存回歸……
決策樹、隨機森林、梯度提公升樹等等
3.mllib提供了多種工作流工具:
模型評估、超引數調整
資料匯入等額外功能
4.mllib還提供了一些更底層的機器學習原語,包括:
通用的梯度下降優化演算法
支援在集群上擴充套件
graphx
graphx是spark提供的分布式圖計算框架
graphx主要遵循整體同步平行計算模式
與spark streaming和spark sql類似,graphx也擴充套件了spark的rdd api
能夠建立頂點和邊都包含任意屬性的有向圖
graphx還支援針對圖的各種操作(比如進行圖分割的subgraph和操作所有頂點的mapverticecs)
支援常用圖演算法(比如pagerank和三角計數)
spark的應用場景
1.spark能夠一次處理pb級的資料,也可以分布在數千個協作的物理或虛擬伺服器集群中,同時有一套廣泛的開發者庫和api,支援多種程式語言的靈活性特點,能夠適合各種環境
2.spark最常見的兩種應用場景:
離線場景:可以以時間為維度,幾年的資料集,或者以業務為維度,某個領域的大資料集等,這種資料我們一般叫做離線資料或者冷資料
實時場景:**埋點、實時從前端頁面傳輸過來的資料、業務系統或物理硬體實時傳輸過來的資料、硬體訊號或者影象資料等,需要實時去計算處理並且返回結果的資料
Spark及其應用場景初探
最近老大讓用spark做乙個etl專案,搭建了一套只有三個結點standalone模式的spark集群做測試,基礎資料量大概8000w左右。看了官方文件,spark確實在map reduce上提公升了很多,可是官方明確提出了在interactive data方面效能提公升最大。但是做etl的資料之間...
SAP BTP MTA 應用的應用場景
程式語言 軟體設計架構 如微服務 協議 如 odata 的最新趨勢和進展,以及多層和分布式部署平台的多樣性,加速了由更多 更小 解耦和多樣化的模組構建應用程式的趨勢。在微服務架構下,越來越多的業務應用程式傾向於由使用不同語言和技術開發並部署到各種目標執行時環境的多個部分組成。這種應用程式模組的多樣性...
Redis應用場景
redis開創了一種新的資料儲存思路,使用redis,我們不用在面對功能單調的資料庫時,把精力放在如何把大象放進冰箱這樣的問題上,而是利用redis靈活多變的資料結構和資料操作,為不同的大象構建不同的冰箱。redis常用資料型別 redis最為常用的資料型別主要有以下五種 在具體描述這幾種資料型別之...