MapReduce分布式計算框架 具體測試

2021-09-02 01:28:47 字數 501 閱讀 9263

編寫**,注意要放在main下,不然一會打包會失敗

下一步,開啟本地cmd,打包一下

先進入這個工程的資料夾下 打包的命令為 mvn clean package -dskiptests

如圖,打包成功

接下來,我們開啟虛擬機器,鏈結xshell,並啟動hadoop

將剛才打包好的jar包上傳到虛擬機器上,包括我們提前編寫好的測試檔案(wordcount.txt)

然後再將lib目錄下的wordcount.txt檔案上傳到hdfs的/input目錄下

命令為hdfs dfs -put /home/hadoop/installpkgs/lib/wordcount.txt /input

如圖,生成檔名為part-r-00000

接下來我們檢視一下,命令為hdfs dfs -text /output/part-r-00000

測試成功

這是我們編寫的txt檔案

所以,測試成功,hello出現了3次,world出現了3次

分布式計算框架MapReduce

mapreduce思想在生活中處處可見。或多或少都曾接觸過這種思想。mapreduce的思想核心是 分而治之 適用於大量複雜的任務處理場景 大規模資料處理場景 map負責 分 即把複雜的任務分解為若干個 簡單的任務 來並行處理。可以進行拆分的前提是這些小任務可以平行計算,可以提高並行度。彼此間幾乎沒...

MapReduce 分布式計算框架

mapreduce是分布式計算框架,它將大型資料操作作業分解為可以跨伺服器集群並行執行的單個任務,適用於大規模資料處理場景,每個job包含map和reduce兩部分 分而治之 簡化平行計算的程式設計模型 構建抽象模型 map和reduce 隱藏系統層細節 開發人員專注於業務邏輯實現 優點 缺點 ov...

分布式計算模型MapReduce

1 需求 統計乙個檔案中每乙個單詞出現的總次數。2 案例資料 3 編寫reducer類 public class wordcountreducer extends reducer v.set sum context.write key,v 4 編寫驅動類 public class wordcount...