數值RDD的統計操作

spark 對包含數值資料的 rdd 提供了一些描述性的統計操作。 spark 的數值操作是通過流式演算法實現的，允許以每次乙個元素的方式構建出模型。這些統計資料都會在呼叫 stats() 時通過一次遍歷資料計算出來，並以statscounter 物件返回。

方法含義

count()

rdd中的元素個數

mean()

元素的平均值

sum()

總和max()

最大值min()

最小值variance()

元素的方差

samplevariance()

從取樣中計算出方差

stdev()

標準差samplestdev()

取樣的標準差

舉例如下：

scala> var rdd1 = sc.makerdd(1 to 100)
rdd1: org.apache.spark.rdd.rdd[int] = parallelcollectionrdd[42] at
makerdd at :32
scala> rdd1.sum()
res34: double = 5050.0
scala> rdd1.max()
res35: int = 100

RDD操作建立RDD，轉換操作

學習完廈門大學資料庫spark課程總結 rdd是面對物件的檔案集合，類似於dataframe的一行資料，建立rdd有很多種模式 lines sc.textfile file usr local spark 檔案目錄位址注意sc是sparkcontext縮寫可能需要import一下，這是從本地檔案建...

RDD行動操作

行動操作是第二種型別的rdd操作，它們會把最終求得的結果返回到驅動器程式中，或者寫入外部儲存系統中。常見的rdd行動操作 1.reduce 它接收乙個函式作為引數，這個函式要操作兩個相同的元素型別的rdd資料並返回乙個同樣型別的新元素。乙個簡單的例子就是函式可以用它來對我們的rdd進行累加。使用r...

RDD常用的運算元操作

啟動spark shell 進行測試 spark shell master spark node 1 7077 通過並行化生成rdd val rdd1 sc.parallelize list 5,6,4,7,3,8,2,9,1,10 對rdd1裡的每乙個元素乘2然後排序 val rdd2 rdd1....

數值RDD的統計操作

RDD操作建立RDD，轉換操作

RDD行動操作

RDD常用的運算元操作

相關推薦