spark-jobserver 提供了乙個 restful 介面來提交和管理 spark 的 jobs、jars 和 job contexts。spark-jobserver專案包含了完整的 spark job server 的專案,包括單元測試和專案部署指令碼。
spark-jobserver的特性:
l 「spark as service」:針對 job 和 contexts 的各個方面提供了 rest 風格的 api 介面進行管理
l 支援 sparksql、hive、streamingcontexts/jobs 以及定製 job contexts
l 通過整合 apache shiro 來支援 ldap 許可權驗證
l 通過長期執行的job contexts支援亞秒級別低延遲的任務
l 可以通過結束 context 來停止執行的作業(job)
l 分割 jar 上傳步驟以提高 job 的啟動
l 非同步和同步的 job api,其中同步 api 對低延時作業非常有效
l 支援 standalone spark 和 mesos、yarn
l job 和 jar 資訊通過乙個可插拔的dao 介面來持久化
l 對rdd或dataframe物件命名並快取,通過該名稱獲取rdd或dataframe。這樣可以提高物件在作業間的共享和重用
l 支援 scala 2.10 版本和 2.11 版本
spark-jobserver的部署
1) 拷貝 conf/local.sh.template 檔案到 local.sh 。備註:如果需要編譯不同版本的spark,需修改 spark_version 屬性。
2) 拷貝config/shiro.i
Spark安裝與配置
安裝並使用spark。首先在官網上安裝對應版本,因為已經安裝了hadoop,選擇without hadoop版本。執行解壓 修改檔名 配置檔案等操作 sudo tar zxf spark 2.3.2 bin without hadoop.tgz c usr local cd usr local su...
Spark編譯與打包
進入spark根目錄下,執行 make distribution.sh tgz tgz 引數是指編譯後生成tgz包 phadoop 支援hadoop pyarn 支援yarn phive 支援hive with tachyon 支援tachyon記憶體檔案系統 name 與 tgz一起用時,name...
spark與storm比對與選型
大資料實時處理平台市場上產品眾多,本文著重討論spark與storm的比對,最後結合適用場景進行選型。一 spark與storm的比較 比較點storm spark streaming 實時計算模型 純實時,來一條資料,處理一條資料 準實時,對乙個時間段內的資料收集起來,作為乙個rdd,再處理 實時...