1.編寫程式**如下:
wordcount.scala
packagewordcount
import
org.apache.spark.sparkconf
import
org.apache.spark.sparkcontext
import
org.apache.spark.sparkcontext._
/***
@author
hadoop
* 統計字元出現個數 *
*/object wordcount
val conf = new
sparkconf()
val sc = new
sparkcontext(conf)
//sparkcontext 是把**提交到集群或者本地的通道,我們編寫spark**,無論是要本地執行還是集群執行都必須有sparkcontext的例項
val line = sc.textfile(args(0))
// line.flatmap(_.split(" ")).map((_, 1)).reducebykey(_+_).collect.foreach(println)
sc.stop
}}
2.將程式打包成wordcount.jar
3.編寫wordcount.sh指令碼
#!/bin/bashcd $spark_home/bin
spark-submit \
--master spark://
192.168.1.154:7077 \
--class
wordcount.wordcount \
--name wordcount \
--executor-memory 400m \
--driver-memory 512m \
/usr/local/myjar/wordcount.jar \
hdfs:
其中的wordcount.txt是要統計的文字。
4.將wordcount.txt檔案上傳到hdfs中對應的目錄,並啟動spark集群
5.執行指令碼
在Spark上執行TopK程式
package com.cn.gao import org.apache.spark.sparkconf import org.apache.spark.sparkcontext import org.apache.spark.sparkcontext.author hadoop 對文字進行詞頻統計...
在Hadoop上發布spark作業
這次的例子是計算航空公司的平均延遲時間,並畫圖 直接上 import csv import matplotlib.pyplot as plt import matplotlib as mpl mpl.use tkagg use tkagg to show figures from stringio ...
在Linux上執行C
眾所周知,c 是microsoft推出的.net語言,只能在.net平台上執行,例如win 9x me nt 2000 xp和win ce之類的作業系統。但是,現在卻有了乙個叫做mono的專案,它的目標就是把.net及其程式語言移植到非windows的平台上。現在,c 是唯一被移植到非windows...