前幾天偶然在學校學長那裡買了一本hadoop的書,於是想學習一下hadoop,安裝了好久的cygwin64,再配置hadoop,比較費勁(操作能力啊有待提高),但是一地個wordcount成功執行出來了,還是比價高興的。
首先格式化namenode
$ bin/hadoop namenode -format
然後啟動hadoop
$ bin/start-all.sh
在hdfs下建立輸入資料夾
$ bin/hadoop fs -mkdir input
檢視建立資料夾是否成功
$ bin/hadoop fs -ls
drwxr-xr-x - anshengqi supergroup 0 2014-06-29 19:27 /user/anshengqi/input
此處有點疑問,為何在/user/anshengqi下找不到input資料夾?
在本地資料夾(如當前目錄下)新建兩個檔案a.txt,b.txt。
;上傳上面建立的兩個檔案到input問件夾下:
$ bin/hadoop fs -put a.txt input,但是此時有錯:***x could only be replicated to 0 nodes, instead of 1
這個問題是由於沒有新增節點的原因,也就是說需要先啟動namenode,再啟動datanode,然後啟動jobtracker和tasktracker。這樣就不會存在這個問題了。
$ bin/hadoop-daemon.sh start namenode
$ bin/hadoop-daemon.sh start datanode
$ bin/hadoop-daemon.sh start jobtracker
$ bin/hadoop-daemon.sh start tasktracker
然後可以上傳檔案。
$ bin/hadoop fs -put a.txt input
檢視是否上傳成功?
$ bin/hadoop fs -ls input
found 2 items
-rw-r--r-- 1 anshengqi supergroup 12 2014-06-29 19:34 /user/anshengqi/input/a.txt
-rw-r--r-- 1 anshengqi supergroup 13 2014-06-29 19:35 /user/anshengqi/input/b.txt
上傳成功!
執行worldcount程式例子:
14/06/29 19:39:27 info mapreduce.job: running job: job_201406291926_0001
14/06/29 19:39:28 info mapreduce.job: map 0% reduce 0%
14/06/29 19:39:46 info mapreduce.job: map 50% reduce 0%
14/06/29 19:39:49 info mapreduce.job: map 100% reduce 0%
14/06/29 19:39:55 info mapreduce.job: map 100% reduce 100%
....
檢視結果:
$ bin/hadoop fs -cat output/*
hadoop 1
hello 2
world 1
hadoop日誌分析系統一 Hadoop的認識
hadoop是乙個分布式的大資料處理平台 核心組成 hdfs分布式檔案系統 高度容錯的分布式檔案儲存系統 mapreduce平行計算模型 一種計算的模型 common元件 hadoop的核心元件 其它元件 hbase 高可靠性 高效能 面向列 可伸縮的分布式儲存系統 hive 資料倉儲 sqoop ...
Hadoop學習筆記 Hadoop初識
序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...
Hadoop學習一 Hadoop版本
一.hadoop社群版和發行版 社群版 我們把apache社群一直開發的hadoop稱為社群版。簡單的說就是apache hadoop 發行版 基於apache hadoop的基礎上進行商業改造的解決方案,包含一系列定製的管理工具和軟體。二.hadoop社群版版本號 一直以來,hadoop的版本號一...