Spark快速大資料分析第三章RDD程式設計2

// 初始化 sparkconf
val conf =
newsparkconf()
.setmaster
("local").
()val sc =
newsparkcontext
(conf)
// 輸入文字
val lines = sc.
parallelize
(list(1
,2,3
,3))

/
/ 返回所有
val collect = lines.collect()/
/ 對rdd中的每個元素使用給定函式
collect.
foreach
(println)
//  1
//  2
//  3
//  3

// 返回個數
val count = lines.
count()
println
(count)
//  4

// 各元素在rdd**現的次數
val countbyvalue = lines.
countbyvalue()
println
(countbyvalue)
//  map(1 -> 1, 3 -> 2, 2 -> 1)

/
/ 從rdd中返回num個元素
val take = lines.take(2)
take.
foreach
(println)
//  1
//  2

// 最前面的num個元素
val top = lines.
top(2)
top.
foreach
(println)
//  3
//  3

// 並行整合rdd中所有資料

val reduce = lines.reduce((x, y) => x + y)

println(reduce)

// 9

// 與reduce類似,預設1個task,會增加2次給定初值

val fold = lines.fold(1)((x, y) => x + y)

println(「fold:」 + fold)

// fold:11

// 與reduce()相似，但是通常返回不同型別
// 求和，計數， 同時進行兩種運算
val aggregate = lines.
aggregate((
0,0)
)((acc, value)
=>
(acc._1 + value, acc._2 +1)
,(acc1, acc2)
=>
(acc1._1 + acc2._1, acc1._2 + acc2._2)
)println
(aggregate)

資料分析第三章資料準備

1.資料表的設計 1 資料表由標題行和資料部分組 2 第一行是表的列標題欄位名列標題不重複 3 第二行起始資料部分，資料部分的每一行資料稱為乙個記錄，並且資料部分不允許出現空白行和空白列。4 資料表中不能有合併單元格存在。5 資料表與其他資料之間應該流出至少乙個空白行和乙個空白列 6 資料表需要...

Python資料分析與挖掘實戰第三章

目錄第三章資料探索一資料探索二資料質量分析 1.主要任務 2.缺失值分析 3.異常值分析 4.一致性分析三資料特徵分析 1.分布分析 2.對比分析 3.統計量分析 4.週期性分析 5.貢獻度分析 6.相關性分析資料預處理的前提檢查原始資料中是否存在髒資料髒資料不符合要求，以及...

第三章詞法分析

詞法分析的主要目的是將輸入的字串輸出為乙個個單獨的單詞符號。即從左至右逐個字元的對源程式進行掃瞄，產生乙個個的單詞符號，把作為字串的源程式改造成為由單詞符號串組成的程式。實現這種過程需要借助詞法分析器，其輸入時源程式，輸出為單詞符號，其實現過程如下單詞的種類基本字保留字，關鍵字由程式語言定義的...

Spark快速大資料分析 第三章RDD程式設計2

資料分析第三章 資料準備

Python資料分析與挖掘實戰 第三章

第三章 詞法分析

相關推薦

Spark快速大資料分析第三章RDD程式設計2

資料分析第三章資料準備

Python資料分析與挖掘實戰第三章

第三章詞法分析