大資料 spark shell iris資料探索

0.讀取資料

val data = sc.textfile(「iris.data」)

1.統計資料條數

data.count()//資料條數

2.統計每種花的記錄條數。

方法一：

data.filter(line => line.contains(「iris-setosa」)).count()

data.filter(line => line.contains(「iris-versicolor」)).count()

data.filter(line => line.contains(「iris-virginica」)).count()

方法二：

df.groupby(「species」).count().show()

3.統計花萼長度，花萼寬度，花瓣長度，花瓣寬度的最大值，最小值和平均值。

方法一：

思路：轉化為dataframe

#構造case class，利用反射機制隱式轉換

import spark.implicits._

val data = sc.textfile(「iris.data」)

case class irisdata(sepallengthcm:float,sepalwidthcm:float,petallengthcm:float,petalwidthcm:float,species:string)

val df = data.map(_.split(",")).map(x=>irisdata(x(0).tofloat,x(1).tofloat,x(2).tofloat,x(3).tofloat,x(4))).todf

df.show()

df.describe().show()

方法二：spark入門：基本的統計工具（1） – spark.mllib

import org.apache.spark.mllib.linalg.vector

import org.apache.spark.mllib.stat.

val observations=sc.textfile(「iris.data」).map(_.split(",")).map(p => vectors.dense(p(0).todouble, p(1).todouble, p(2).todouble, p(3).todouble))

val summary: multivariatestatisticalsummary = statistics.colstats(observations)

println(summary.count)

大資料什麼是大資料

1.什麼是資料資料是事實或觀察的結果，是對客觀事物的邏輯歸納，是用於表示客觀事物的未加工的原始材料。資料經過加工之後就成為資訊。2.大資料的定義麥肯錫給出的大資料定義是大資料是指大小超過常規的資料庫工具獲取儲存管理和分析能力的資料集。但它同時強調，並不是說一定要超過特定的tb值的資料才能是...

大資料什麼是大資料？

海量的資料 tb pb zb。高增長率資料的形成速度使用爬蟲多樣化資料是結構化非結構化半結構化。電商行業電商行業是最早利用大資料進行精準營銷，它根據客戶的消費習慣提前生產資料物流管理等，有利於精細社會大生產。由於電商的資料較為集中，資料量足夠大，資料種類較多，因此未來電商資料應用將會...

大資料之大資料時代

下面，開啟第一講大資料之大資料時代講大資料一定脫離不開乙個大的背景。下面先從大資料背景講起。縱觀整個it發展史，也不過短短幾十年，在這幾十年裡，我們這個資訊化社會經歷了三次大的資訊化浪潮。第一次浪潮是在上個世紀90年代前，1980年前後，pc機進入市場，ibm公司制定了全球的pc標準，即一台電腦...

大資料 spark shell iris資料探索

大資料 什麼是大資料

大資料 什麼是大資料？

大資料之大資料時代

相關推薦

大資料什麼是大資料

大資料什麼是大資料？