Hadoop的woldcount終於好使了

2021-06-22 13:40:47 字數 1730 閱讀 8188

前幾天偶然在學校學長那裡買了一本hadoop的書,於是想學習一下hadoop,安裝了好久的cygwin64,再配置hadoop,比較費勁(操作能力啊有待提高),但是一地個wordcount成功執行出來了,還是比價高興的。

首先格式化namenode

$ bin/hadoop namenode -format

然後啟動hadoop

$ bin/start-all.sh

在hdfs下建立輸入資料夾

$ bin/hadoop fs -mkdir input

檢視建立資料夾是否成功

$ bin/hadoop fs -ls

drwxr-xr-x   - anshengqi supergroup          0 2014-06-29 19:27 /user/anshengqi/input

此處有點疑問,為何在/user/anshengqi下找不到input資料夾?

在本地資料夾(如當前目錄下)新建兩個檔案a.txt,b.txt。

;上傳上面建立的兩個檔案到input問件夾下:

$ bin/hadoop fs -put a.txt input,但是此時有錯:***x could only be replicated to 0 nodes, instead of 1

這個問題是由於沒有新增節點的原因,也就是說需要先啟動namenode,再啟動datanode,然後啟動jobtracker和tasktracker。這樣就不會存在這個問題了。

$ bin/hadoop-daemon.sh start namenode

$ bin/hadoop-daemon.sh start datanode

$ bin/hadoop-daemon.sh start jobtracker

$ bin/hadoop-daemon.sh start tasktracker

然後可以上傳檔案。

$ bin/hadoop fs -put a.txt input

檢視是否上傳成功?

$ bin/hadoop fs -ls input

found 2 items

-rw-r--r--   1 anshengqi supergroup         12 2014-06-29 19:34 /user/anshengqi/input/a.txt

-rw-r--r--   1 anshengqi supergroup         13 2014-06-29 19:35 /user/anshengqi/input/b.txt

上傳成功!

執行worldcount程式例子:

14/06/29 19:39:27 info mapreduce.job: running job: job_201406291926_0001

14/06/29 19:39:28 info mapreduce.job:  map 0% reduce 0%

14/06/29 19:39:46 info mapreduce.job:  map 50% reduce 0%

14/06/29 19:39:49 info mapreduce.job:  map 100% reduce 0%

14/06/29 19:39:55 info mapreduce.job:  map 100% reduce 100%

....

檢視結果:

$ bin/hadoop fs -cat output/*

hadoop  1

hello   2

world   1

hadoop日誌分析系統一 Hadoop的認識

hadoop是乙個分布式的大資料處理平台 核心組成 hdfs分布式檔案系統 高度容錯的分布式檔案儲存系統 mapreduce平行計算模型 一種計算的模型 common元件 hadoop的核心元件 其它元件 hbase 高可靠性 高效能 面向列 可伸縮的分布式儲存系統 hive 資料倉儲 sqoop ...

Hadoop學習筆記 Hadoop初識

序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...

Hadoop學習一 Hadoop版本

一.hadoop社群版和發行版 社群版 我們把apache社群一直開發的hadoop稱為社群版。簡單的說就是apache hadoop 發行版 基於apache hadoop的基礎上進行商業改造的解決方案,包含一系列定製的管理工具和軟體。二.hadoop社群版版本號 一直以來,hadoop的版本號一...