hadoop的第乙個程式wordcount實現

具體安裝步驟請見部落格：

linux hadoop 2.7 偽分布式安裝簡單幾步實現

1. 在本地新建乙個檔案，筆者在~/hadoop-2.7.1/local_data資料夾新建了乙個文字檔案hello.txt，local_data資料夾也是新建的。檔案內容是：

he wo shi he jing

shao wo shi shao jie

ni ni shi lu lu

2. 在hdfs檔案系統中，新建乙個資料夾，用於上傳本地的hello.txt，在hadoop2.7.1目錄下輸入命令：

在hdfs根目錄下建立乙個test目錄：bin/hdfs dfs -mkdir /test

檢視hdfs根目錄下的目錄結構：bin/hdfs dfs -ls /

3. 將本地的hello.txt文件上傳到test目錄裡

上傳本地檔案：bin/hdfs dfs -put /home/couragek/hadoop-2.7.1/local_data/hello.txt /test/

檢視此時目錄：bin/hdfs dfs -ls /test/

4. 執行word count程式

使用命令：bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /test/hello.txt /test/out

在/test目錄下生成名為out的檔案：bin/hdfs dfs -ls /test

結果是在test目錄下生成了乙個名為out的檔案目錄

輸入命令檢視out目錄下的檔案：bin/hdfs dfs -ls /test/out

檢視執行結果：

5. 參考文獻

第乙個Hadoop程式

需求有100個檔案每個大概10g，300萬個樣例每個樣例可以得到對應的類別屬性屬性值。統計屬性值出現的次數類似 wordcount 其中 word 是類 cat1 cat3 屬性屬性值 usr bin env python coding utf 8 import sys reload sy...

第乙個hadoop程式過程和問題清單

一首先，我是大體是根據 spark亞太研究院系列叢書 spark實戰高手之路從零開始這本書來配置hadoop的。1.先配置hadoop單機模式並執行wordcount 基本是按照這個流程來做的，但是期間遇到了一些問題。org.apache.hadoop.mapreduce.lib.input...

第乙個視窗程式

程式截圖程式 include lresult callback wndproc hwnd,uint,wparam,lparam int winapi winmain hinstance hinstance,hinstance hprevinstance,pstr szcmdline,int icm...

hadoop的第乙個程式wordcount實現

第乙個Hadoop程式

第乙個hadoop程式 過程和問題清單

第乙個視窗程式

相關推薦

第乙個hadoop程式過程和問題清單