streamingpro目前已經涵蓋流式/批處理,以及互動查詢三個領域,實現配置和sql化今天介紹利用 streamingpro 完成批處理的流程。
我們假設您將檔案放在了/tmp目錄下。
gist
在批處理模式下,所有的資料來源和輸出都各自有乙個固定的模組(使用了spark的datasource api),然後對模組做配置即可,無需使用不同的模組。
在這個示例裡,你需要配置上es集群作為輸入,配置hdfs作為輸出,從而完成執行。
local模式:
cd $spark_home
--master local[2] \
--name test \
/tmp/streamingpro-0.4.1-snapshot-online-1.6.1.jar \
-streaming.name test \
-streaming.platform spark \
-streaming.job.file.path file:///tmp/test.json
訪問
可進入spark ui
集群模式:
cd $spark_home
--master yarn-cluster \
--name test \
/tmp/streamingpro-0.4.1-snapshot-online-1.6.1.jar \
-streaming.name test \
-streaming.platform spark \
-streaming.job.file.path hdfs://cluster/tmp/test.json
這裡需要注意的是,配置檔案並蓄放到hdfs上,並且需要協商hdfs字首。這是乙個標準的spark 批處理程式 使用Spark SQL構建批處理程式
今天介紹利用 streamingpro 完成批處理的流程。我們假設您將檔案放在了 tmp目錄下。gist local模式 cd spark home master local 2 name test tmp streamingpro 0.2.1 snapshot dev 1.6.1.jar stre...
Spark SQL和特徵處理
spark資料處理方式主要有三種 rdd dataframe spark sql 三者的主要差異在於是否定義schema rdd的資料未定義schema 也就是未定義欄位名及資料型別 使用上必須有map reduce的概念,需要高階別的程式設計能力。但是功能也最強,能完成所有spark功能。spar...
使用批處理檔案
字尾是bat的檔案就是批處理檔案,是一種文字檔案。簡單的說,它的作用就是自動的連續執行多條命令,批處理檔案的內容就是一條一條的命令。那它有什麼用呢?比如,在啟痺ps軟體時,每次都必須執行 c cd wps c wps spdos c wps py c wps wbx c wps wps 如果每次用w...