sql 實時資料流處理 機器學習 圖計算 4大子框架
1圖計算graphx,下面是一棧式解決graphx和graphlab的對比 相比之下 雖然graphx沒有graphlab快 但一棧式解決讓整體更好
圖儲存模式:巨型圖的儲存有邊分割(每個頂點都儲存一次,但邊可能被分到不同的機器,如果基於邊的計算,那麼跨機器通訊變大)和點分割(邊只儲存一次)
2實時流處理框架spark streaming
spark streaming把輸入資料按照batch size分成一段一段的discretized stream(dstream),每一段資料都轉換成spark中的rdd
3互動式sql處理框架 spark sql
有如下特點:
1 能在scala**裡寫sql 2 支援parquet檔案(列式儲存格式的檔案系統,使用parquent檔案進行讀寫,可以極大的降低對於cup和磁碟i/o的消耗)的讀寫,且保留scheme 3支援直接多json格式資料操作 4 能在scala**裡訪問hive元資料,能執行hive語句,並且把結果返回作為rdd
4機器學習框架spark mllib (機器學習演算法庫,同時包含相關的測試和資料生成器,支援二元分類·回歸·聚類·協同過濾)
spark官方文件 Spark快速開發框架
本人從 2014 年開始使用 apache spark,基於以往專案經驗,為了降低專案開發複雜度,減少開發成本,開發了 light spark 框架。本框架遮蔽了底層技術細節,讓開發人員面向 sql 程式設計,更專注於業務邏輯,減少開發過程中 debug 工作,讓 apache spark 更方便使...
大資料框架 spark
rdd 彈性分布式資料集。operation transformation 和action,乙個返回rdd,乙個返回值。lineage rdd之間的依賴關係,如何演變過來。partition rdd分割槽,按block切分 narrow dependency 窄依賴 父rdd全進入子rdd wide...
Spark的Notebook工具彙總
當前spark的notebook工具主要有四個,zeppelin spark notebook hue 上述四個工具都可以作為spark 的notebook工具,但特點不同。jupyter是輕量級別的,開啟關閉都很快,並且開啟的是相當於是乙個最小spark集群,故適合 快速測試。zeppelin發展...