大資料 spark shell iris資料探索

2021-10-23 12:50:10 字數 1266 閱讀 4644

0.讀取資料

val data = sc.textfile(「iris.data」)

1.統計資料條數

data.count()//資料條數

2.統計每種花的記錄條數。

方法一:

data.filter(line => line.contains(「iris-setosa」)).count()

data.filter(line => line.contains(「iris-versicolor」)).count()

data.filter(line => line.contains(「iris-virginica」)).count()

方法二:

df.groupby(「species」).count().show()

3.統計花萼長度,花萼寬度,花瓣長度,花瓣寬度的最大值,最小值和平均值。

方法一:

思路:轉化為dataframe

#構造case class,利用反射機制隱式轉換

import spark.implicits._

val data = sc.textfile(「iris.data」)

case class irisdata(sepallengthcm:float,sepalwidthcm:float,petallengthcm:float,petalwidthcm:float,species:string)

val df = data.map(_.split(",")).map(x=>irisdata(x(0).tofloat,x(1).tofloat,x(2).tofloat,x(3).tofloat,x(4))).todf

df.show()

df.describe().show()

方法二:spark入門:基本的統計工具(1) – spark.mllib

import org.apache.spark.mllib.linalg.vector

import org.apache.spark.mllib.stat.

val observations=sc.textfile(「iris.data」).map(_.split(",")).map(p => vectors.dense(p(0).todouble, p(1).todouble, p(2).todouble, p(3).todouble))

val summary: multivariatestatisticalsummary = statistics.colstats(observations)

println(summary.count)

大資料 什麼是大資料

1.什麼是資料 資料是事實或觀察的結果,是對客觀事物的邏輯歸納,是用於表示客觀事物的未加工的原始材料。資料經過加工之後就成為資訊。2.大資料的定義 麥肯錫給出的大資料定義是 大資料是指大小超過常規的資料庫工具獲取 儲存 管理和分析能力的資料集。但它同時強調,並不是說一定要超過特定的tb值的資料才能是...

大資料 什麼是大資料?

海量的資料 tb pb zb。高增長率 資料的形成速度 使用爬蟲 多樣化 資料是結構化 非結構化 半結構化。電商行業 電商行業是最早利用大資料進行精準營銷,它根據客戶的消費習慣提前生產資料 物流管理等,有利於精細社會大生產。由於電商的資料較為集中,資料量足夠大,資料種類較多,因此未來電商資料應用將會...

大資料之大資料時代

下面,開啟第一講 大資料之大資料時代 講大資料一定脫離不開乙個大的背景。下面先從大資料背景講起。縱觀整個it發展史,也不過短短幾十年,在這幾十年裡,我們這個資訊化社會經歷了三次大的資訊化浪潮。第一次浪潮是在上個世紀90年代前,1980年前後,pc機進入市場,ibm公司制定了全球的pc標準,即一台電腦...