val newrdd = oldrdd.sample(withreplacement, fraction, seed)
withreplacement表示是抽出的資料是否放回,true為有放回的抽樣,false為無放回的抽樣
fraction表示隨機抽樣的資料數量
seed用於指定隨機數生成器種子
def sample
(withreplacement : scala.boolean, fraction : scala.double, seed : scala.long =
): org.apache.spark.rdd.rdd[t]
=
以指定的隨機種子隨機抽樣出數量為fraction的資料,withreplacement表示是抽出的資料是否放回,true為有放回的抽樣,false為無放回的抽樣,seed用於指定隨機數生成器種子。
package com.day1
import org.apache.spark.rdd.rdd
import org.apache.spark.
object oper }輸入
1234
5678
910輸出3
59
Spark RDD運算元介紹
spark學習筆記總結 spark可以用於批處理 互動式查詢 spark sql 實時流處理 spark streaming 機器學習 spark mllib 和圖計算 graphx spark是mapreduce的替代方案,而且相容hdfs hive,可融入hadoop的生態系統,以彌補mapre...
Spark RDD運算元介紹
spark學習筆記總結 spark可以用於批處理 互動式查詢 spark sql 實時流處理 spark streaming 機器學習 spark mllib 和圖計算 graphx spark是mapreduce的替代方案,而且相容hdfs hive,可融入hadoop的生態系統,以彌補mapre...
Spark RDD運算元介紹
spark學習筆記總結 spark可以用於批處理 互動式查詢 spark sql 實時流處理 spark streaming 機器學習 spark mllib 和圖計算 graphx spark是mapreduce的替代方案,而且相容hdfs hive,可融入hadoop的生態系統,以彌補mapre...