題目:該資料集包含了某大學計算機系的成績,資料格式如下所示:
tom,database,80
tom,algorithm,50
tom,datastructure,60
jim,database,90
jim,algorithm,60
jim,datastructure,80
……請根據給定的實驗資料,在 spark-shell 中通過程式設計來計算以下內容:
(1)該系總共有多少學生;
(2)該系共開設來多少門課程;
(3)tom 同學的總成績平均分是多少;
(4)求每名同學的選修的課程門數;
共265行
(5)該系 database 課程共有多少人選修;
(6)各門課程的平均分是多少;
(7)使用累加器計算共有多少人選了 database 這門課。
對於兩個輸入檔案 a 和 b,編寫 spark 獨立應用程式,對兩個檔案進行合併,並剔除其
中重複的內容,得到乙個新檔案 c。下面是輸入檔案和輸出檔案的乙個樣例,供參考。
輸入檔案 a 的樣例如下:
20170101 x
20170102 y
20170103 x
20170104 y
20170105 z
20170106 z
輸入檔案 b 的樣例如下:
20170101 y
20170102 y
20170103 x
20170104 z
20170105 y
根據輸入的檔案 a 和 b 合併得到的輸出檔案 c 的樣例如下:
20170101 x
20170101 y
20170102 y
20170103 x
20170104 y
20170104 z
20170105 y
20170105 z
20170106 z
**:
@test每個輸入檔案表示班級學生某個學科的成績,每行內容由兩個字段組成,第乙個是學生def test(): unit =
writer.close()
}
名字,第二個是學生的成績;編寫 spark 獨立應用程式求出所有學生的平均成績,並輸出到
乙個新檔案中。下面是輸入檔案和輸出檔案的乙個樣例,供參考。
algorithm 成績:
小明 92
小紅 87
小新 82
小麗 90
database 成績:
小明 95
小紅 81
小新 89
小麗 85
python 成績:
小明 82
小紅 83
小新 94
小麗 91
平均成績如下:
(小紅,83.67)
(小新,88.33)
(小明,89.67)
(小麗,88.67)
**:
@testdef test2(): unit =
writer.close()
}
Spark學習進度 RDD運算元
需求 資料格式如下 在 spark 中,其實最終 job3 從邏輯上的計算過程是 job3 job1.map filter,整個過程是共享記憶體的,而不需要將中間結果存放在可靠的分布式檔案系統中 線性回歸 val points sc.textfile map persist val w random...
Spark學習進度10 DS DF基礎操作
通過flatmap可以將一條資料轉為乙個陣列,後再展開這個陣列放入dataset val ds1 seq hello spark hello hadoop tods ds1.flatmap item item.split show 可以將資料集中每條資料轉為另一種形式 val ds2 seq per...
學習進度筆記 Spark 環境搭建和使用
實驗前提以及安裝好hadoop和spark 1 使用 hadoop 提供的 shell 命令完成如下操作 1 啟動 hadoop,在 hdfs 中建立使用者目錄 user hadoop 2 在 linux 系統的本地檔案系統的 home hadoop 目錄下新建乙個文字檔案 test.txt,並在該...