提交hadoop任務示例:
$hadoop_home/bin/hadoop streaming \
-input /user/test/input -output /user/test/output \
-file\
-file /home/work/myreducer.sh\
-jobconf mapred.job.name=」file-demo」
還有一些較為複雜的使用,比如需要指定任務個數等,可以使用
-jobconf mapred.job.map.capacity=m -jobconf mapred.job.reduce.capacity=n
上面的命令設定最多同時執行m個
map任務,n個
reduce
任務,如果m或
n為0或者沒有指定,則對應的
capacity
沒有限制,預設配置就是
0沒有限制。建議在執行作業時都設定
map和
reduce capacity
,防止作業占用過多資源。
hadoop streaming記憶體超限解決方案
解決方案 1.提高記憶體上限 增加配置,將上限調高到8000m,這樣就解決了,如下 d stream.memory.limit 8000 2.將讀入詞表的操作轉到reducer階段完成 這樣需要點思路轉換,我需要對比的key是地理位置,詞表的key也是地理位置,可以在reducer階段將它們歸併起來...
HadoopStreaming常用引數簡單說明
1 基本開發引數 input 輸入路徑,指的是hdfs上的路徑 output 輸出路徑,指的也是hdfs上的路徑 reducer python red.py 執行reduce過程的 的執行引數 file map.py 需要分發的檔案 將上述map reduce的 檔案分發到hdfs上 2 優化引數 ...
Hadoop Streaming框架使用(二)
提交hadoop任務示例 hadoop home bin hadoop streaming input user test input output user test output file home work myreducer.sh jobconf mapred.job.name file d...