mapreduce的典型應用場景中,
目前日誌分析用的比較多,還有做搜素的索引,機器學習演算法包mahout也是之一,當然它能做的東西還有很多,比如
資料探勘、資訊提取。
mapreduce得到廣泛的應用,主要集中在分布排序、web連線圖反轉和web訪問日誌分析。
google建立了基於mapreduce的搜尋索引系統。從本質上而言,這個索引是由序列的批處理操作組成的。它通過把對資料集的大規模操作分發給網路上的每個節點進行運算,而每個節點會週期性的把完成的工作和狀態的更新報告回主計算.lipkovitz首先談到了google基於mapreduce檔案索引系統處理方式。「我們必須面對乙個非常龐大的資料系統,在這之前,我們需要等待8個小時的計算時間我們才能夠得到計算的全結果,然後我們就會把它發布到索引系統中去。過去我們一直在不停地重複這個耗時耗力的工作。」
mapreduce僅僅是乙個批處理操作方式.google之所以放棄mapreduce,是因為它並不能為谷歌提供它所想要的索引速度,特別是隨著實時檢索時代的到來,谷歌需要的是在幾秒內重新整理索引內容,而非8小時。
索引系統是谷歌最大的mapreduce的應用程式。
我們看看doug cutting的對於hadoop在業務上的使用:
doug cutting(dc):yahoo定期在搜尋業務上使用hadoop來提高其產品和服務,如排名功能和目標廣告等。除此之外,也有一些直接使用hadoop進行資料生成的案例。hadoop的長期目標是提供世界級的分布式計算工具,也是對下一代業務(如搜尋結果分析等)提供支援的web擴充套件(web-scale)服務。
more:
MapReduce2 0 原理 架構 應用場景
良好的擴充套件性,即可以很容易的增加節點 適合pb級別的資料的離線處理 map階段 輸入資料的解析 inputformat 輸入分組 partitioner 本節點的規約 combiner reduce階段 shuffling階段拉取資料 桶排序,是乙個hash過程,使得相同的key可以排在一堆 資...
MapReduce 2 0應用場景 原理與基本架構
現介紹計算框架mapreduce。mapreduce乙個應用場景是有大量檔案,裡面儲存了單詞,且乙個單詞佔一行 執行任務是如何統計每個單詞出現的次數?類似應用場景有搜尋引擎中,統計最流行的k個搜尋詞以及統計搜尋詞頻率,幫助優化搜尋詞提示 mapreduce將作業的整個執行過程分為兩個階段 map階段...
SAP BTP MTA 應用的應用場景
程式語言 軟體設計架構 如微服務 協議 如 odata 的最新趨勢和進展,以及多層和分布式部署平台的多樣性,加速了由更多 更小 解耦和多樣化的模組構建應用程式的趨勢。在微服務架構下,越來越多的業務應用程式傾向於由使用不同語言和技術開發並部署到各種目標執行時環境的多個部分組成。這種應用程式模組的多樣性...