Hadoop入門例項 WordCount統計單詞

2021-07-23 18:38:50 字數 1345 閱讀 1916

首先要說明的是執行hadoop需要jdk1.6或以上版本,如果你還沒有搭建好hadoop集群,請參考我的另一篇文章:

linux環境搭建hadoop偽分布模式

馬上進入正題。

1.啟動hadoop集群,使用jps檢視所有結點是否啟動成功;

2.進入hadoop的bin目錄,檢視hadoop中的例程

執行./hadoop jar /opt/hadoop/hadoop-examples-*-.jar,紅框中的jar包根據你的hadoop版本而定;

3.試圖執行wordcount,./hadoop jar /opt/hadoop/hadoop-examples-1.0.4.jar wordcount

顯示出引數列表為:wordcount ,所以我們要指定分布式檔案的輸入、輸出目錄;

4.建立輸入目錄

在bin目錄下執行:./hadoop dfs -mkdir /home/hadoop/input (本地的mkdir可能不可用)

我使用的是window下的虛擬機器,可以用xftp將本地檔案上傳到linux伺服器,很方便。。

./hadoop dfs -put input/* /home/hadoop/input

第二個目錄是你的分布式檔案系統的輸入目錄)

檢視測試檔案:./hadoop dfs -ls /home/hadoop/input 

6.執行,每次執行前請先刪除輸出目錄,因為他是自動生成的;

或者每次都建立乙個新的目錄,否則會執行失敗。

7.檢視單詞統計結果,預設生成的檔案part-r-00000

我選擇的是一篇經濟學**,這個就是部分結果了。

開心!!!

Hadoop例項執行

1 要使用 hdfs,首先需要在 hdfs 中建立使用者目錄,也可以使用預設根目錄 zhaojunyandemacbook pro zhaojunyan hdfs dfs mkdir p usr hadoop 預設根目錄是 hdfs localhost 9000 user zhaojunyan 2 ...

Hadoop使用例項

1.詞頻統計 1.2編寫map與reduce函式 1.3本地測試map與reduce 1.4將文字資料上傳至hdfs上 1.5用hadoop streaming提交任務 1.6檢視執行結果 1.7計算結果取回到本地 加分2.氣象資料分析 如 求每日最高溫度 2.2解壓資料集,並儲存在本地文字檔案中 ...

Hadoop使用例項

1.詞頻統計 1.2編寫map與reduce函式 1.3本地測試map與reduce 1.4將文字資料上傳至hdfs上 1.5用hadoop streaming提交任務 1.6檢視執行結果 1.7計算結果取回到本地 2.氣象資料分析 如 求每日最高溫度 2.2解壓資料集,並儲存在本地文字檔案中 2....