Spark學習進度實戰測試

題目：該資料集包含了某大學計算機系的成績，資料格式如下所示：

tom,database,80

tom,algorithm,50

tom,datastructure,60

jim,database,90

jim,algorithm,60

jim,datastructure,80

……請根據給定的實驗資料，在 spark-shell 中通過程式設計來計算以下內容：

（1）該系總共有多少學生；

（2）該系共開設來多少門課程；

（3）tom 同學的總成績平均分是多少；

（4）求每名同學的選修的課程門數；

共265行

（5）該系 database 課程共有多少人選修；

（6）各門課程的平均分是多少；

（7）使用累加器計算共有多少人選了 database 這門課。

對於兩個輸入檔案 a 和 b，編寫 spark 獨立應用程式，對兩個檔案進行合併，並剔除其

中重複的內容，得到乙個新檔案 c。下面是輸入檔案和輸出檔案的乙個樣例，供參考。

輸入檔案 a 的樣例如下：

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

輸入檔案 b 的樣例如下：

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根據輸入的檔案 a 和 b 合併得到的輸出檔案 c 的樣例如下：

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

**：

@test
def test(): unit =
writer.close()
}

每個輸入檔案表示班級學生某個學科的成績，每行內容由兩個字段組成，第乙個是學生

名字，第二個是學生的成績；編寫 spark 獨立應用程式求出所有學生的平均成績，並輸出到

乙個新檔案中。下面是輸入檔案和輸出檔案的乙個樣例，供參考。

algorithm 成績：

小明 92

小紅 87

小新 82

小麗 90

database 成績：

小明 95

小紅 81

小新 89

小麗 85

python 成績：

小明 82

小紅 83

小新 94

小麗 91

平均成績如下：

(小紅,83.67)

(小新,88.33)

(小明,89.67)

(小麗,88.67)

**：

@test
def test2(): unit =
writer.close()
}

Spark學習進度 RDD運算元

需求資料格式如下在 spark 中,其實最終 job3 從邏輯上的計算過程是 job3 job1.map filter,整個過程是共享記憶體的,而不需要將中間結果存放在可靠的分布式檔案系統中線性回歸 val points sc.textfile map persist val w random...

Spark學習進度10 DS DF基礎操作

通過flatmap可以將一條資料轉為乙個陣列,後再展開這個陣列放入dataset val ds1 seq hello spark hello hadoop tods ds1.flatmap item item.split show 可以將資料集中每條資料轉為另一種形式 val ds2 seq per...

學習進度筆記 Spark 環境搭建和使用

實驗前提以及安裝好hadoop和spark 1 使用 hadoop 提供的 shell 命令完成如下操作 1 啟動 hadoop，在 hdfs 中建立使用者目錄 user hadoop 2 在 linux 系統的本地檔案系統的 home hadoop 目錄下新建乙個文字檔案 test.txt，並在該...

Spark學習進度 實戰測試

Spark學習進度 RDD運算元

Spark學習進度10 DS DF基礎操作

學習進度筆記 Spark 環境搭建和使用

相關推薦

Spark學習進度實戰測試