一、目的
根據給出的資料樣本,統計出搜尋指數最高的男明星和女明星。
二、思路分析
三、部分資料
四、編寫程式
1.map函式解析資料集
/*
* *map函式
* key=gender,value=name+hotindex
*/public
static
class
mapextends
}
2.combiner函式,對map的輸出結果先進行一次合併,減少網路輸出
/*
* */
public
static
class
startcombiner
extends
reducer
//設定value的值
text.set(name+"\t"+maxhotindex);
//輸出key=key,value = text
context.write(key, text);}}
}
3.partitioner函式,根據明星性別對資料進行分割槽。
/*
* 定義partitioner類,根據性別分割槽
* 輸出key=gender,value=name+hotindex
*/public
static
class
***partitioner
extends
partitioner
}
4.reduce函式,呼叫reduce(key, iterable< text> values, context)方法來處理每個key和values的集合。在values集合中,計算出明星的最大搜尋指數。
/*
* 定義reduce類,統計不同性別明星的最高搜尋指數
* 輸出key=name,value=gender+max(index)
*/public
static
class
reduce
extends
reducer
}context.write(new text(name), new text(key+"\t"+maxhotindex));}}
5.run驅動函式
public
int run(string arg) throws exception
job job = new job(conf,"startindex");//新建乙個任務
job.setjarbyclass(starindex.class);//設定主類
job.setnumreducetasks(2);//reduce個數
job.setpartitionerclass(***partitioner.class);//設定partitioner類
job.setcombinerclass(startcombiner.class);//設定combiner類
job.setmapoutputkeyclass(text.class);
job.setmapoutputvalueclass(text.class);
job.setreducerclass(reduce.class);//reducer
job.setoutputkeyclass(text.class);
job.setoutputvalueclass(text.class);
fileinputformat.addinputpath(job, new path(arg[0]));//輸入路徑
fileoutputformat.setoutputpath(job, new path(arg[1]));//輸出路徑
job.waitforcompletion(true);//提交任務
return
0; }
6.主函式
public
static
void
main(string arg) throws exception
;int ec = toolrunner.run(new configuration(), new starindex(), args);
system.exit(ec);
}
五、編譯和執行將專案打包成jar,使用ssh上傳至hdfs目錄下
執行jar包
檢視結果
在myeclipse上檢視結果
Hadoop實戰 明星搜尋指數統計,找出人氣王
本專案我們使用明星搜尋指數資料,分別統計出搜尋指數最高的男明星和女明星。基於專案的需求,我們通過以下幾步完成 3 編寫 partitioner 類,按性別,將結果指定給不同的 reduce 執行。4 編寫 reducer 類,分別統計出男 女明星的最高搜尋指數。5 編寫 run 方法執行 mapre...
ArcGIS空間統計 Moran s莫蘭指數下
本文接上篇 arcgis空間統計 moran s莫蘭指數上 概述 根據要素位置和屬性值使用 global moran s i 統計量測量空間自相關性。提出者為澳大利亞統計學家派屈克 阿爾弗雷德 皮爾斯 莫蘭 patrick alfred pierce moran 詳細概述 空間自相關 global ...
白話空間統計之 Moran s I(莫蘭指數)
前兩天聊了空間統計學裡面的兩個經典概念,今天來說說第一篇文章留下的大坑 moran s i 首先,moran s i 這個東西,官方叫做 莫蘭指數,是澳大利亞統計學家派屈克 阿爾弗雷德 皮爾斯 莫蘭 patrick alfred piercemoran 好長的名字,不過一般都簡稱為 帕克 莫蘭,就是...