學習mllib的基本資料型別的種類與用法。
如何組合利用這些基本資料型別去進行一些統計量的計算 這是資料分析和挖掘的基本內容
mllib基本資料型別
localvector本地向量集:
分為兩種: 稀疏型資料集spares 密集型資料集dense 只支援整型資料和浮點型資料因為mllib的目的就是進行數值計算。
labeled point 向量標籤:
labeled point是建立向量標籤的靜態類,features用於顯示列印標記點所代表的資料內容 ,label用於顯示標記數
local matrix 本地矩陣:
matries.dense方法
distributed matrix 分布式矩陣:
採用分布式矩陣進行儲存往往是資料量非常大的,提供了四種分布式矩陣儲存形式 均由支援長整型的行列數和雙精度浮點型的資料內容組成,此處介紹最常用的3種
行矩陣帶有行索引的行矩陣
座標矩陣
塊矩陣行矩陣rowmatrix:
可以理解為行矩陣就是乙個巨大的特徵向量的集合, 每一行就是乙個具有相同格式的特徵向量資料
帶有索引的行矩陣indexedrowmatrix:
為了方便在系統的除錯的過程中對行矩陣的內容進行觀察和顯示 引入 帶有行索引的行矩陣
座標矩陣coordinatematrix:
座標矩陣是一種帶有座標標記的矩陣,其中的每乙個具體資料都有一組座標進行標記 一般用於資料比較多且資料較為分散的情形
import org.apache.spark.
import org.apache.spark.mllib.linalg.
import org.apache.spark.mllib.regression.labeledpoint
import org.apache.spark.mllib.linalg.
import org.apache.spark.mllib.linalg.distributed.rowmatrix
import org.apache.spark.mllib.linalg.distributed.
import org.apache.spark.mllib.linalg.distributed.
object mllibdatastructure
}
mllib數理統計基本概念
基本統計量 在mllib中,統計量的計算主要用到statistics類庫
colstats 以列為基礎計算統計量:
統計量基本資料
count max mean norml1 norml2 numnonzeros variance
距離計算
歐幾里得距離 l2範數 曼哈頓距離 l1範數
chisqtest 對資料集內的資料進行皮爾遜距離計算
關係的統計指標稱為相關係數。對兩組資料間的相似程度進行定量化分析。常用的是皮爾遜相關係數(mllib中預設)。
corr 對兩個資料集進行相關係數計算
分層抽樣
假設檢驗
卡方檢驗
顯著性差異指標
隨機數randomrdds
MLlib資料統計基本概念
備註 kimi.txt中的內容如下 12 34 5一.求資料的均值和標準差 計算均值 println summary.variance 計算標準差 程式結果 3.0 2.5 二.距離計算 1.歐幾里得距離 norml1 指在m維空間中兩個點之間的真實距離,或者向量的自然長度 即該點到原點的距離 2....
基本概念 C 基本概念
由於工作中需要用到c 編寫的一些工具,有時候需要根據需求修改或者定製工具,所以現在不得不學習一下c 的基礎語法,此為筆記,不成章法!機器語言 組合語言 高階語言 面向過程的程式設計方法 物件導向的程式設計方法 泛型程式設計方法 1 演算法設計 2 源程式編輯 3 編譯 4 連線 5 執行除錯 輸入裝...
基本概念 數控系統基本概念
第一章 基本概念 數控工具機cnc是一種按事先編制好的加工零件程式進行加工的高效 自動化加工裝置。是 computer numerical control machine tools 的簡稱。數控工具機較好地解決了複雜 精密 小批量 多品種的零件加工問題,是一種柔性的 高效能的自動化工具機。西門子系...