數值RDD的統計操作

2021-08-20 11:48:59 字數 666 閱讀 5099

spark 對包含數值資料的 rdd 提供了一些描述性的統計操作。 spark 的數值操作是通過流式演算法實現的,允許以每次乙個元素的方式構建出模型。這些 統計資料都會在呼叫  stats()  時通過一次遍歷資料計算出來,並以statscounter  物件返回。

方法含義

count()

rdd中的元素個數

mean()

元素的平均值

sum()

總和max()

最大值min()

最小值variance()

元素的方差

samplevariance()

從取樣中計算出方差

stdev()

標準差samplestdev()

取樣的標準差

舉例如下:

scala> var rdd1 = sc.makerdd(1 to 100)

rdd1: org.apache.spark.rdd.rdd[int] = parallelcollectionrdd[42] at

makerdd at :32

scala> rdd1.sum()

res34: double = 5050.0

scala> rdd1.max()

res35: int = 100

RDD操作建立RDD,轉換操作

學習完廈門大學資料庫spark課程總結 rdd是面對物件的檔案集合,類似於dataframe的一行資料,建立rdd有很多種模式 lines sc.textfile file usr local spark 檔案目錄位址 注意sc是sparkcontext縮寫可能需要import一下,這是從本地檔案建...

RDD行動操作

行動操作是第二種型別的rdd操作,它們會把最終求得的結果返回到驅動器程式中,或者寫入外部儲存系統中。常見的rdd行動操作 1.reduce 它接收乙個函式作為引數,這個函式要操作兩個相同的元素型別的rdd資料並返回乙個同樣型別的新元素。乙個簡單的例子就是函式 可以用它來對我們的rdd進行累加。使用r...

RDD常用的運算元操作

啟動spark shell 進行測試 spark shell master spark node 1 7077 通過並行化生成rdd val rdd1 sc.parallelize list 5,6,4,7,3,8,2,9,1,10 對rdd1裡的每乙個元素乘2然後排序 val rdd2 rdd1....