業務場景:資料排序
1、」資料排序」是許多實際任務執行時要完成的第一項工作,
比如學生成績評比、資料建立索引等。這個例項和資料去重類似,都是先對原始資料進行初步處理,為進一步的資料操作打好基礎。
1)、需求描述
對輸入檔案中資料進行排序。輸入檔案中的每行內容均為乙個數字,即乙個資料。
要求在輸出中每行有兩個間隔的數字,其中,第乙個代表原始資料在原始資料集中的位次,第二個代表原始資料。
2)輸入檔案
file1:232
65432
15756
65223
file2:
5956
22650
92file3:
2654
6樣例輸出:
1 22 6
3 15
4 22
5 26
6 32
7 32
8 54
9 92
10 650
11 654
12 756
13 5956
14 65223
package classiccase
import org.apache.spark.
/** * 業務場景:資料排序
* created by yj on 2017/2/8.
*/object case3
).collect.foreach(x => println(x._1 +"\t" + x._2) )
}}
輸出結果:
1 22 6
3 15
4 22
5 26
6 32
7 32
8 54
9 92
10 650
11 654
12 756
13 5956
14 65223
Spark經典案例之資料去重
資料格式 flie1 2012 3 1 a 2012 3 2 b 2012 3 3 c 2012 3 4 d 2012 3 5 a 2012 3 6 b 2012 3 7 c 2012 3 3 c flie2 2012 3 1 b 2012 3 2 a 2012 3 3 b 2012 3 4 d 2...
Spark面試經典系列之資料傾斜 資料傾斜之痛
本課主題 spark效能真正的殺手 資料傾斜兩大直接致命性的的後果 資料傾斜最殺人就是 out of memory oom 一般oom都是由於資料傾斜所致 速度變慢 特別慢 非常慢 極端的慢 不可接受的慢。資料傾斜基本特徵 個別 task處理大量資料 20 和80 基本上都存在業務熱點問題,這是現實...
經典排序之氣泡排序
邊學習邊記載。氣泡排序是經典排序之一,時間複雜度是o n 2 以如下陣列為例 陣列 5 6 3 1 8 7 2 4,以從小到大排序為例 i表示陣列下標,初始化為0 5 6 3 1 8 7 2 4 第一輪是從0到n 1比較,n為陣列的長度 1 首先i 0 比較5,6,由於5 6,所以保持不變 2 i ...