Spark學習進度 實戰測試

2022-01-10 00:00:31 字數 2084 閱讀 5203

題目:該資料集包含了某大學計算機系的成績,資料格式如下所示:

tom,database,80

tom,algorithm,50

tom,datastructure,60

jim,database,90

jim,algorithm,60

jim,datastructure,80

……請根據給定的實驗資料,在 spark-shell 中通過程式設計來計算以下內容:

(1)該系總共有多少學生;

(2)該系共開設來多少門課程;

(3)tom 同學的總成績平均分是多少;

(4)求每名同學的選修的課程門數;

共265行

(5)該系 database 課程共有多少人選修;

(6)各門課程的平均分是多少;

(7)使用累加器計算共有多少人選了 database 這門課。

對於兩個輸入檔案 a 和 b,編寫 spark 獨立應用程式,對兩個檔案進行合併,並剔除其

中重複的內容,得到乙個新檔案 c。下面是輸入檔案和輸出檔案的乙個樣例,供參考。

輸入檔案 a 的樣例如下:

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

輸入檔案 b 的樣例如下:

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根據輸入的檔案 a 和 b 合併得到的輸出檔案 c 的樣例如下:

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

**:

@test

def test(): unit =

writer.close()

}

每個輸入檔案表示班級學生某個學科的成績,每行內容由兩個字段組成,第乙個是學生

名字,第二個是學生的成績;編寫 spark 獨立應用程式求出所有學生的平均成績,並輸出到

乙個新檔案中。下面是輸入檔案和輸出檔案的乙個樣例,供參考。

algorithm 成績:

小明 92

小紅 87

小新 82

小麗 90

database 成績:

小明 95

小紅 81

小新 89

小麗 85

python 成績:

小明 82

小紅 83

小新 94

小麗 91

平均成績如下:

(小紅,83.67)

(小新,88.33)

(小明,89.67)

(小麗,88.67)

**:

@test

def test2(): unit =

writer.close()

}

Spark學習進度 RDD運算元

需求 資料格式如下 在 spark 中,其實最終 job3 從邏輯上的計算過程是 job3 job1.map filter,整個過程是共享記憶體的,而不需要將中間結果存放在可靠的分布式檔案系統中 線性回歸 val points sc.textfile map persist val w random...

Spark學習進度10 DS DF基礎操作

通過flatmap可以將一條資料轉為乙個陣列,後再展開這個陣列放入dataset val ds1 seq hello spark hello hadoop tods ds1.flatmap item item.split show 可以將資料集中每條資料轉為另一種形式 val ds2 seq per...

學習進度筆記 Spark 環境搭建和使用

實驗前提以及安裝好hadoop和spark 1 使用 hadoop 提供的 shell 命令完成如下操作 1 啟動 hadoop,在 hdfs 中建立使用者目錄 user hadoop 2 在 linux 系統的本地檔案系統的 home hadoop 目錄下新建乙個文字檔案 test.txt,並在該...