spark 對包含數值資料的 rdd 提供了一些描述性的統計操作。 spark 的數值操作是通過流式演算法實現的,允許以每次乙個元素的方式構建出模型。這些 統計資料都會在呼叫 stats() 時通過一次遍歷資料計算出來,並以statscounter 物件返回。
方法含義
count()
rdd中的元素個數
mean()
元素的平均值
sum()
總和max()
最大值min()
最小值variance()
元素的方差
samplevariance()
從取樣中計算出方差
stdev()
標準差samplestdev()
取樣的標準差
舉例如下:
scala> var rdd1 = sc.makerdd(1 to 100)
rdd1: org.apache.spark.rdd.rdd[int] = parallelcollectionrdd[42] at
makerdd at :32
scala> rdd1.sum()
res34: double = 5050.0
scala> rdd1.max()
res35: int = 100
RDD操作建立RDD,轉換操作
學習完廈門大學資料庫spark課程總結 rdd是面對物件的檔案集合,類似於dataframe的一行資料,建立rdd有很多種模式 lines sc.textfile file usr local spark 檔案目錄位址 注意sc是sparkcontext縮寫可能需要import一下,這是從本地檔案建...
RDD行動操作
行動操作是第二種型別的rdd操作,它們會把最終求得的結果返回到驅動器程式中,或者寫入外部儲存系統中。常見的rdd行動操作 1.reduce 它接收乙個函式作為引數,這個函式要操作兩個相同的元素型別的rdd資料並返回乙個同樣型別的新元素。乙個簡單的例子就是函式 可以用它來對我們的rdd進行累加。使用r...
RDD常用的運算元操作
啟動spark shell 進行測試 spark shell master spark node 1 7077 通過並行化生成rdd val rdd1 sc.parallelize list 5,6,4,7,3,8,2,9,1,10 對rdd1裡的每乙個元素乘2然後排序 val rdd2 rdd1....