怎樣使用spark的pipe呼叫外部程式

spark在rdd上提供pipe()方法。spark的pipe()方法可以讓我們使用任意一種語言實現spark作業中的部分邏輯，只要它能讀寫unix標準的流就行。通過pipe(),你可以將rdd中的各元素從標準輸入流中以字串形式讀出，並對這些元素執行任何你需要的操作，然後把結果以字串的形式寫入標準輸出------這個過程就是rdd的轉化操作過程。有了pipe()這個管道我們就可以通過這個管道與r、c++、python以及shell指令碼等程式進行互動，使其能夠進行更快的計算。

本部落格只介紹spark通過pipe()與python,shell進行互動，感興趣的小夥伴可以嘗試一下其他的。

1.首先寫乙個python程式，在本地執行保證沒問題。

import sys
for line in sys.stdin:
d=line.strip().split(',')
if len(d) !=2:
continue
label=d.pop(0)
hit_id=d.pop(0)
features=
print(features)

注意：要用stdin或者raw_input獲取輸入。

2.把python程式寫成指令碼

#!/usr/bin/python
import sys
for line in sys.stdin:
d=line.strip().split(',')
if len(d) !=2:
continue
label=d.pop(0)
hit_id=d.pop(0)
features=
print(features)

注意：指令碼編寫後要新增指令碼的執行許可權

3.編寫spark程式呼叫pipe()

scala> val rdddata=sc.textfile("hdfs://ip/tmp/wordcount.txt")
scala> val scriptpath="/tmp/test/test.py"
scriptpath: string = /tmp/test/test.py
scala> println(rdddata.pipe(scriptpath).collect().tolist)

執行結果如下：

list([('item.id,spark', 1), ('item.id,hive', 1)], [('item.id,hadoop', 1), ('item.id,spark', 1)], [('item.id,zookeeper', 1), ('item.id,kylin', 1)], [('item.id,kylin', 1), ('item.id,hue', 1)], [('item.id,spark', 1), ('item.id,hue', 1)], [('item.id,hadoop', 1), ('item.id,spark', 1)], [('item.id,spark', 1), ('item.id,redis', 1)], [('item.id,spark', 1), ('item.id,hbase', 1)], [('item.id,hive', 1), ('item.id,hbase', 1)])

1.編寫shell指令碼

#!/bin/sh
while read line; do
echo $line | awk ''
done

2.在spark程式中呼叫

scala> val rdddata=sc.textfile("hdfs://ip/tmp/wordcount.txt")
scala> val scriptpath="/tmp/test/test.sh"
scriptpath: string = /tmp/test/test.sh
scala> println(rdddata.pipe(scriptpath).collect().tolist)
list((item.id,spark,1)(item.id,hive,1)(item.id,hive.hadoop,1)(item.id,hadoop,1)(item.id,spark,1)(item.id,zookeeper,1)(item.id,kylin,1)(item.id,kylin,1)(item.id,hue,1), (item.id,spark,1)(item.id,hue,1)(item.id,hadoop,1)(item.id,spark,1)(item.id,spark,1)(item.id,redis,1)(item.id,spark,1)(item.id,hbase,1)(item.id,hive,1)(item.id,hbase,1))

怎樣使用spark的pipe呼叫外部程式

例項 Linux管道pipe的使用

Spark在Yarn上的效能調優

Spark的基本使用

怎樣使用spark的pipe呼叫外部程式

例項 Linux管道pipe的使用

Spark在Yarn上的效能調優

Spark的基本使用

相關推薦