MLlib資料統計基本概念

2021-07-30 17:51:55 字數 1252 閱讀 8269

備註:kimi.txt中的內容如下:12

34

5

一.求資料的均值和標準差

計算均值

println(summary.variance);//

計算標準差 }}

程式結果:[3.0][2.5]

二.距離計算

1.歐幾里得距離(norml1):指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離)。

2.曼哈段距離(norml2):兩個點在標準座標系上的絕對軸距總和。

import org.apache.spark.mllib.linalg.vectors

import org.apache.spark.mllib.stat.statistics

import org.apache.spark.

object testvector

}

程式結果:

[15.0]

[7.416198487095663]

三.相關係數

x.txt,y.txt內容:

1 2 3 4 5

2 4 6 8 10

import org.apache.spark.mllib.stat.statistics

import org.apache.spark.

object testvector

}單個資料集相關係數的計算

import org.apache.spark.mllib.linalg.vectors

import org.apache.spark.mllib.stat.statistics

import org.apache.spark.

object testvector

}

1.0                 0.9999999999999998  0.9999999999999998  ... (5 total)

0.9999999999999998  1.0                 0.9999999999999998  ...

0.9999999999999998  0.9999999999999998  1.0                 ...

0.9999999999999998  0.9999999999999998  0.9999999999999998  ...

0.9999999999999998  0.9999999999999998  0.9999999999999998  ...

MLlib基本概念2018 4 27

學習mllib的基本資料型別的種類與用法。如何組合利用這些基本資料型別去進行一些統計量的計算 這是資料分析和挖掘的基本內容 mllib基本資料型別 localvector本地向量集 分為兩種 稀疏型資料集spares 密集型資料集dense 只支援整型資料和浮點型資料因為mllib的目的就是進行數值...

資料統計分析 基本概念 01

頻數,定序 定類 定距資料 定性 vs 定量 定量研究 通過統計調查法或實驗法,建立研究假設,收集精確的資料資料,然後進行統計分析和檢驗的研究過程。定性研究 定性是定量的基礎,定量是定性的精確化!從不同的角度,不同的層面,用不同的方法對同一事物的質進行研究 乙個是發散思維創造想法,乙個用數字和邏輯驗...

統計基本概念

方差 隨機變數的離散程度,資料偏離均值的差異平方和 自由度 標準差 有了方差為什麼還要有標磚差呢,為了更直觀!例如,正態分佈中 均數加減多少個標準差。均方誤差 mse 各資料偏離真實值的距離平方和的平均數,也即誤差平方和的平均數 均方根誤差 root mean square error 又叫標準誤差...