大資料學習之路17 MR程式設計案例,線段重疊次數計算

2021-08-24 18:10:26 字數 632 閱讀 9528

首先看看需求:

其實這個也是乙個wordcount的問題我們應該這麼看問題。比如2,5這條線段就包含(2,1),(3,1),(4,1),(5,1)這幾個點。這樣就可以按照wordcount的方式去處理問題了。按照這種方式處理完問題之後,我們可以得到重疊的點和次數。

接下來我們需要取出重疊次數最多的前三個點。我們可以將這兩個屬性封裝成乙個實體,然後實現writablecomparable介面讓他按照我們的排序規則排序。拍完序之後我們還需要取出前三個,這時我們可以在reducer類中定義乙個成員變數,每執行一次reduce方法就讓它加一,如果等於三就return這樣就只能寫入前三個資料。其實我們不一定只取前三個,所以我們最好將這個數值通過args引數進行傳遞。如果我們要取的話,我們通過context獲取,那這個獲取的**放在**?放在reduce方法中嗎?不對,這樣每次執行reduce方法都要取值,沒必要的,我們可以在setup方法中獲取,這樣這個值我們只獲取一次就可以了。

以下貼出**:

package com.test.linecount;

import j

大資料筆記07 MR案例開發

溫度統計 推薦好友 統計輸入的檔案中,每個單詞出現了幾次 在map中將輸入的每條資料切割成單詞,將key為單詞,value為1的計算結果輸出 預設的分組器會將相同key 單詞 的資料分為一組,輸入reduce 在reduce中,遍歷輸入的資料,將value加和 sum 輸出單詞和sum到檔案中 pu...

大資料學習之路

大資料的學習之路,一直在到處學習零零閃閃的東西,但是從來麼有對自己學習的東西進行整理,以及後續做過的東西,一直找不到對應的東西,接下來會對自己的學習記錄下來,以及同類問題遇見的得以解決 4v特徵 volume 資料量大,pb級別 velocity 輸入和處理速度快 流式資料 value 價值密度低 ...

大資料學習之路 1

大資料的特點 1.資料 廣 資料格式多樣化 結構化資料 非結構化資料 excel檔案 文字檔案 資料量大 最少是tb級別的,甚至可能是pb級別的 資料增長速度快等 針對以上特點,要考慮的問題 1.資料 廣,如何採集彙總?sqoop,cammel,datax等工具 2.資料採集後,如何儲存?對應出現了...