廢話不多說直接上**
/**
* 初始化
*/val sc = new sparkcontext(conf)
val list = sc.makerdd(list("lisa jennie rosé jisoo","black pink jisoo jennie lisa rosé"))
/*** 這裡和scala寫差不多 都是先flatmap根據分隔符分開,再壓平展開,然後生成元組,不過spark提供了reducebykey,
* 方便了很多
*/println(list.flatmap(_.split(" ")).map((_, 1)).reducebykey(_ + _).collect.tobuffer)
執行結果如下圖 hadoop執行自帶例項wordcount
作業系統 ubuntu hadoop版本 3.1.3 cd usr local hadoop bin hdfs namenode format 格式化namenode sbin start dfs.shbin hdfs dfs mkdir input 新建input資料夾 bin hdfs dfs ...
Spark實現排序
question 用spark對資料進行排序,首先按照顏值的從高到低進行排序,如果顏值相等,在根據年齡的公升序排序 1.user類繼承ordered,並且序列化 package cn.edu360.spark.day06 import org.apache.log4j.import org.apac...
Spark實現排序
question 用spark對資料進行排序,首先按照顏值的從高到低進行排序,如果顏值相等,在根據年齡的公升序排序 1.user類繼承ordered,並且序列化 package cn.edu360.spark.day06 import org.apache.log4j.import org.apac...