今天完成了老師布置的spark實驗四的最後一部分,將三個檔案的內容合併並且求出所有人的成績的平均值:
3.編寫獨立應用程式實現求平均值問題
每個輸入檔案表示班級學生某個學科的成績,每行內容由兩個字段組成,第乙個是學生名字,第二個是學生的成績;編寫 spark 獨立應用程式求出所有學生的平均成績,並輸出到乙個新檔案中。下面是輸入檔案和輸出檔案的乙個樣例,供參考。
algorithm 成績:
小明 92
小紅 87
小新 82
小麗 90
database 成績:
小明 95
小紅 81
小新 89
小麗 85
python 成績:
小明 82
小紅 83
小新 94
小麗 91
平均成績如下:
(小紅,83.67)
(小新,88.33)
(小明,89.67)
(小麗,88.67)
學習進度條15
星期日星期一 星期二星期三 星期四星期五 星期六所花時間 包括上課 9 21 11 07 08 00 10 00 16 30 17 28 15 07 16 14 18 12 19 36 20 41 21 00 07 57 09 03 量 行 0行0行 0行0行 0行0行 0行部落格量 篇 了解到的知...
學習進度筆記
學習進度筆記26 分類演算法 分類演算法屬於監督式學習,使用類標籤已知的樣本建立乙個分類函式或分類模型,應用分類模型,能把資料庫中的類標籤未知的資料進行歸類。分類在資料探勘中是一項重要的任務,目前在商業上應用最多,常見的典型應用場景有流失 精確營銷 客戶獲取 個性偏好等。mllib 目前支援分類演算...
學習進度筆記
學習進度筆記24 讀取檔案演示 import org.apache.spark.sparkconf import org.apache.spark.streaming.import org.apache.spark.streaming.streamingcontext.object fileword...