入門必備hdfs基礎
大資料生態之起源——hadoop
分布式檔案系統hdfs架構和資料讀寫流程
hadoop偽分布式模式部署
hdfs常用命令
mapreduce原理
分布式計算框架mapreduce架構
mapreduce程式設計模型詳解— —以經典word count為例
mapreduce的maptask數量如何確定?
mapreduce靈魂——看不見的shuffle
mapreduce原理分析:自定義輸入格式inputformat
mapreduce原理分析:自定義輸出格式outputformat
mapreduce原理分析:自定義分割槽partition和資料傾斜解決之道
程式設計技巧
windows環境下mapreduce程式除錯最有用技巧
應用案例
mapreduce應用案例1:資料去重
mapreduce應用案例2:簡單資料排序
mapreduce應用案例3:簡單資料倒排
mapreduce應用案例4:二次排序(組合鍵機制實現)
mapreduce應用案例5:倒排索引
mapreduce應用案例6:二度好友發現
案例github位址
MapReduce原理及程式設計
二.mapreduce程式設計模型 mapreduce是乙個分布式計算框架 適用於大規模資料處理場景 每個job包含map和reduce兩部分 分而治之 構建抽象模型 map和reduce 隱藏系統層細節 優點 實現 資料定義格式 mapreduce執行過程 必須可序列化 serializableh...
MapReduce程式設計job概念原理
在hadoop中,每個mapreduce任務都被初始化為乙個job,每個job又可分為兩個階段 map階段和reduce階段。這兩個階段分別用兩個函式來表示。map函式接收乙個形式的輸入,然後同樣產生乙個形式的中間輸出,hadoop會負責將所有具有相同中間key值的value集合在一起傳遞給redu...
MapReduce工作原理
本文的目錄 1.mapreduce作業執行流程 2.map reduce任務中shuffle和排序的過程 mapreduce作業詳細的執行流程 流程分析 1.在客戶端啟動乙個作業。2.向jobtracker請求乙個job id。3.將執行作業所需要的資源檔案複製到hdfs上,包括mapreduce程...