// 初始化 sparkconf
val conf =
newsparkconf()
.setmaster
("local").
()val sc =
newsparkcontext
(conf)
// 輸入文字
val lines = sc.
parallelize
(list(1
,2,3
,3))
/
/ 返回所有
val collect = lines.collect()/
/ 對rdd中的每個元素使用給定函式
collect.
foreach
(println)
// 1
// 2
// 3
// 3
// 返回個數
val count = lines.
count()
println
(count)
// 4
// 各元素在rdd**現的次數
val countbyvalue = lines.
countbyvalue()
println
(countbyvalue)
// map(1 -> 1, 3 -> 2, 2 -> 1)
/
/ 從rdd中返回num個元素
val take = lines.take(2)
take.
foreach
(println)
// 1
// 2
// 最前面的num個元素
val top = lines.
top(2)
top.
foreach
(println)
// 3
// 3
// 並行整合rdd中所有資料
val reduce = lines.reduce((x, y) => x + y)
println(reduce)
// 9
// 與reduce類似,預設1個task,會增加2次 給定初值
val fold = lines.fold(1)((x, y) => x + y)
println(「fold:」 + fold)
// fold:11
// 與reduce()相似,但是通常返回不同型別
// 求和,計數, 同時進行兩種運算
val aggregate = lines.
aggregate((
0,0)
)((acc, value)
=>
(acc._1 + value, acc._2 +1)
,(acc1, acc2)
=>
(acc1._1 + acc2._1, acc1._2 + acc2._2)
)println
(aggregate)
資料分析第三章 資料準備
1.資料表的設計 1 資料表由標題行和資料部分組 2 第一行是表的列標題 欄位名 列標題不重複 3 第二行起始資料部分,資料部分的每一行資料稱為乙個記錄,並且資料部分不允許出現空白行和空白列。4 資料表中不能有合併單元格存在。5 資料表與其他資料之間應該流出至少乙個空白行和乙個空白列 6 資料表需要...
Python資料分析與挖掘實戰 第三章
目錄 第三章 資料探索 一 資料探索 二 資料質量分析 1.主要任務 2.缺失值分析 3.異常值分析 4.一致性分析 三 資料特徵分析 1.分布分析 2.對比分析 3.統計量分析 4.週期性分析 5.貢獻度分析 6.相關性分析 資料預處理的前提 檢查原始資料中是否存在髒資料 髒資料 不符合要求,以及...
第三章 詞法分析
詞法分析的主要目的是將輸入的字串輸出為乙個個單獨的單詞符號。即從左至右逐個字元的對源程式進行掃瞄,產生乙個個的單詞符號,把作為字串的源程式改造成為由單詞符號串組成的程式。實現這種過程需要借助詞法分析器,其輸入時源程式,輸出為單詞符號,其實現過程如下 單詞的種類基本字 保留字,關鍵字 由程式語言定義的...