0.讀取資料
val data = sc.textfile(「iris.data」)
1.統計資料條數
data.count()//資料條數
2.統計每種花的記錄條數。
方法一:
data.filter(line => line.contains(「iris-setosa」)).count()
data.filter(line => line.contains(「iris-versicolor」)).count()
data.filter(line => line.contains(「iris-virginica」)).count()
方法二:
df.groupby(「species」).count().show()
3.統計花萼長度,花萼寬度,花瓣長度,花瓣寬度的最大值,最小值和平均值。
方法一:
思路:轉化為dataframe
#構造case class,利用反射機制隱式轉換
import spark.implicits._
val data = sc.textfile(「iris.data」)
case class irisdata(sepallengthcm:float,sepalwidthcm:float,petallengthcm:float,petalwidthcm:float,species:string)
val df = data.map(_.split(",")).map(x=>irisdata(x(0).tofloat,x(1).tofloat,x(2).tofloat,x(3).tofloat,x(4))).todf
df.show()
df.describe().show()
方法二:spark入門:基本的統計工具(1) – spark.mllib
import org.apache.spark.mllib.linalg.vector
import org.apache.spark.mllib.stat.
val observations=sc.textfile(「iris.data」).map(_.split(",")).map(p => vectors.dense(p(0).todouble, p(1).todouble, p(2).todouble, p(3).todouble))
val summary: multivariatestatisticalsummary = statistics.colstats(observations)
println(summary.count)
大資料 什麼是大資料
1.什麼是資料 資料是事實或觀察的結果,是對客觀事物的邏輯歸納,是用於表示客觀事物的未加工的原始材料。資料經過加工之後就成為資訊。2.大資料的定義 麥肯錫給出的大資料定義是 大資料是指大小超過常規的資料庫工具獲取 儲存 管理和分析能力的資料集。但它同時強調,並不是說一定要超過特定的tb值的資料才能是...
大資料 什麼是大資料?
海量的資料 tb pb zb。高增長率 資料的形成速度 使用爬蟲 多樣化 資料是結構化 非結構化 半結構化。電商行業 電商行業是最早利用大資料進行精準營銷,它根據客戶的消費習慣提前生產資料 物流管理等,有利於精細社會大生產。由於電商的資料較為集中,資料量足夠大,資料種類較多,因此未來電商資料應用將會...
大資料之大資料時代
下面,開啟第一講 大資料之大資料時代 講大資料一定脫離不開乙個大的背景。下面先從大資料背景講起。縱觀整個it發展史,也不過短短幾十年,在這幾十年裡,我們這個資訊化社會經歷了三次大的資訊化浪潮。第一次浪潮是在上個世紀90年代前,1980年前後,pc機進入市場,ibm公司制定了全球的pc標準,即一台電腦...