Mapreduce的api程式設計

keyin：輸入的key是maptask所讀取到的一行文字的起始偏移量，long

valuein：輸入的value的型別，輸入的value是maptask所讀取到的一行文字內容，string

keyout：我們在本邏輯中輸出單詞做key，string

valueout：我們在本邏輯中輸出１作value，integer 　　

但是，在mapreduce中，maptask輸出的key,value需要經過網路傳給reducetask，所以，這些key物件，value物件，都要可以被序列化和反序列化，雖然long、string等jdk中的資料型別都實現了serializable介面，可以被序列化，但是serializable序列化機制產生的序列化資料相當臃腫，會大大降低網路傳輸的效率，所以hadoop專門設計了一套序列化機制，介面為writable，那麼maptask輸出給reducetask的key-value都必須實現writable介面

long --> longwritable

string --> text

integer --> intwritable

double --> doublewritable

在客戶端的程式中可以設定reducetask 的執行例項數量

job.setnumreducetasks(2);//預設是1

Mapreduce的api程式設計

mapreduce新舊api對比

MapReduce的程式設計規範

MapReduce程式設計模型

Mapreduce的api程式設計

mapreduce新舊api對比

MapReduce的程式設計規範

MapReduce程式設計模型

相關推薦