一、首先,我是大體是根據 《spark亞太研究院系列叢書——spark實戰高手之路 從零開始》這本書來配置hadoop的。
1.先"配置hadoop單機模式並執行wordcount":
基本是按照這個流程來做的,但是期間遇到了一些問題。
org.apache.hadoop.mapreduce.lib.input.invalidinputexception: input path does not exist: hdfs://localhost:9000/usr/local/hadoop/input」
解決1:
hdfs
裡面還沒有把
input
這個資料夾加上去
敲入命令:
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -put input input
這樣之後,通過
dfs
的 -ls
命令終於能找到
input
資料夾:
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls
found 1 items
drwxr-xr-x - hadoop supergroup 0 2013-07-06 20:12 /user/hadoop/input
解決:這表示沒連上hdfs。
有幾種原因:
1)hadoop配置
主要是$hadoop_home/conf/hdfs-site.xml、mapred-site.xml、core-site.xml中的配置是否正確,偽分布式模式可以參考前面的blog,或是網上的文章,一大堆一大堆的。
2)機器連不通
如果是分布式的,還要看hadoop客戶端機器能不能ping通hdfs機器,注意hdfs的埠號
3)namenode沒有啟動
是否是namenode沒有啟動,
$stop-all.sh 如果出現no namenode stop則表示是namenode的問題
$hadoop namenode -format
$start-all.sh
2.最後執行成功的截圖:
第乙個Hadoop程式
需求 有100個檔案 每個大概10g,300萬個樣例 每個樣例可以得到對應的類別屬性屬性值。統計屬性值出現的次數 類似 wordcount 其中 word 是 類 cat1 cat3 屬性屬性值 usr bin env python coding utf 8 import sys reload sy...
hadoop的第乙個程式wordcount實現
具體安裝步驟請見部落格 linux hadoop 2.7 偽分布式安裝簡單幾步實現 1.在本地新建乙個檔案,筆者在 hadoop 2.7.1 local data資料夾新建了乙個文字檔案hello.txt,local data資料夾也是新建的。檔案內容是 he wo shi he jing shao...
第乙個視窗程式
程式截圖 程式 include lresult callback wndproc hwnd,uint,wparam,lparam int winapi winmain hinstance hinstance,hinstance hprevinstance,pstr szcmdline,int icm...