先說點小知識
hadoop fs 使用面最廣,可以操作任何檔案系統
hadoop dfs和hdfs dfs只能操作hdfs相關的
先建資料存放目錄和結果輸出目錄
guo@guo:/opt/hadoop/hadoop-2.7.2# hdfs dfs -mkdir /data/input
guo@guo:/opt/hadoop/hadoop-2.7.2# hdfs dfs -mkdir /data/output
注意:hdfs沒有當前工作目錄的概念,所有檔案元資料都存在namenode節點上,某乙個檔案可能被拆放到不同機器上,也可能將路徑不同的檔案放在同一臺機器上。所以你在硬碟上是找不到剛才建立的目錄的。
將要進行統計的資料上傳到剛才建立的存放目錄
guo@guo:/opt/hadoop/hadoop-2.7.2# hdfs dfs -put test.log /data/input
guo@guo:/opt/hadoop/hadoop-2.7.2# hdfs dfs -ls /data/input
found 1 items
-rw-r--r-- 1 root supergroup 1819 2016-03-14 21:17 /data/input/test.log
進入mapreduce目錄
guo@guo:/opt/hadoop/hadoop-2.7.2# cd /opt/hadoop/hadoop-2.7.2/share/hadoop/mapreduce/
執行wordcount
guo@guo:/opt/hadoop/hadoop-2.7.2/share/hadoop/mapreduce# hadoop jar hadoop-mapreduce-examples-2.7.2.jar wordcount /data/input /data/output/result
檢視result
guo@guo:/opt/hadoop/hadoop-2.7.2/share/hadoop/mapreduce# hdfs dfs -ls /data/output/result
found 2 items
-rw-r--r-- 1 root supergroup 0 2016-03-14 22:16 /data/output/result/_success
-rw-r--r-- 1 root supergroup 855 2016-03-14 22:16 /data/output/result/part-r-00000
注意:第乙個_success是沒有任何東西的0b,它只是告訴你執行成功了,結果在part-r-00000中
。檢視統計結果
guo@guo:/opt/hadoop/hadoop-2.7.2/share/hadoop/mapreduce# hdfs dfs -cat /data/output/result
/part-r-00000
-> 2
-rw------- 5
-rw-r--r-- 5
-rw-rw-r-- 2
../ 1
./ 1
.iceauthority 1
.private 1
.xauthority 1
.bash_history 1
.bash_logout 1
.bashrc 1
.cache/ 1
.config/ 1
.dbus/ 1
.ecryptfs 1
.gconf/ 1
.gvfs/ 1
.local/ 1
.mozilla/ 1
.presage/ 1
.profile 1
.sudo_as_admin_successful 1
.xinputrc 1
.xsession-errors 1
.xsession-errors.old 1
/home/.ecryptfs/guo/.private/ 1
/home/.ecryptfs/guo/.ecryptfs/ 1
0 21 16
這個wordcount沒有那麼智慧型,它只是按空格來分辨是不是乙個單詞的。 Hadoop偽分布式執行wordcount例子
1.進入hadoop目錄,新建乙個test.log檔案,cat命令檢視檔案內容 2.啟動yarn和dfs,一種是全部啟動start all.sh,另外一種分別啟動,如下圖的提示 4.把新建的檔案傳到hdfs的data input中,用ls命令檢視是否傳遞成功 5.進入mapreduce目錄 6.ls...
hadoop偽分布式
首先是本機模式的搭建,如 1 hdfs dfs ls 檢視本地分布式檔案系統,查詢結果為你本機linux檔案系統,說明你的本地模式已經搭建成功 2 進入安裝目錄hadoop資料夾下,進入etc hadoop下對四個配置檔案進行配置 core site.xml hdfs site.xml mapred...
hadoop偽分布式
一 安裝jdk 2 配置環境變數 配置成功 二 ssh免密碼登入 三 hadoop偽分布式配置 2 解壓 3 修改配置檔案 修改為jdk安裝位置 hadoop.tmp.dir file swy bigdata hadoop tmp abase for other temporary director...