Spark 大資料分析 MLlib，基本統計

statistics的colstats函式是列統計方法，該方法可以計算每列最大值、最小值、平均值、方差值、l1範數、l2範數。

val datapath =
"e:\\scala_testdata\\sample_stat.txt"
val rdd = sc.
textfile
(datapath)
.map
(_.split
(" "))
.map
(d=>d.
map(d=
>d.todouble)
)val denserdd = rdd.
map(d=
>vectors.
dense
(d))
val stats = statistics.
colstats
(denserdd)
println
(stats.max)
println
(stats.min)
println
(stats.mean)
println
(stats.variance)
println
(stats.norml1)
println
(stats.norml2)

[12.0,7.0,6.0,100.0,23.0]
[1.0,2.0,1.0,4.0,3.0]
[5.25,4.25,3.0,29.5,9.75]
[24.917,4.92,4.7,2211.0,82.25]
[21.0,17.0,12.0,118.0,39.0]
[13.6,9.3,7.07,100.6,25.04]

pearson，spearman、cosine相似度、歐氏距離的平方，都可以用來描述兩個向量的相關性。

歐氏距離

計算歐氏距離是衡量兩個向量間相似度的常見方法。如果這個「距離」比較**明這兩個向量比較相似。

衡量向量相似度的一種方法。輸出範圍為-1到+1, 0代表無相關性，負值為負相關，正值為正相關。

cosine相似度

輸出範圍和pearson相關性係數一致，含義也相似。

spearman相關系統也用來表達兩個變數的相關性，但是它沒有pearson對變數的分布要求那麼嚴格，另外spearman相關係數可以更好地測度變數的排序關係。

Spark 大資料分析介紹

spark的基本原理 executor worker task jobstage dagscheduler taskscheduler rdd一些疑問一些結論 spark是乙個以複雜計算為核心的大資料分析框架，是mapreduce的後繼者具備高效性通用性等特點。spark最初在2009年由加...

Spark快速大資料分析 RDD程式設計

rdd resilient distributed dataset 彈性分布式資料集 rdd就是乙個不可變的分布式物件集合。每個rdd都被分為多個分割槽，這些分割槽執行在集群中的不同節點。使用者可以通過2中方法建立rdd 1 讀取乙個外部資料集 sc.textfile test.txt 2 在驅動器...

大資料分析平台Hadoop與Spark之爭

zd至頂網軟體頻道訊息原創文章文鄧曉蕾有人把大資料稱為資訊資產有人稱為金礦甚至社會財富。而大資料，即，無法在可承受的時間範圍內用常規軟體工具進行捕捉管理和處理的資料集合。gartne認為大資料是需要新處理模式才能具有更強的決策力洞察發現力和流程優化能力的海量高增長率和多樣化的資...

Spark 大資料分析 MLlib，基本統計

Spark 大資料分析 介紹

Spark快速大資料分析 RDD程式設計

大資料分析平台Hadoop與Spark之爭

相關推薦

Spark 大資料分析介紹