用DataJoin實現多資料來源的Reduce端鏈結

datajoin是hadoop處理多資料來源問題的乙個jar包，放在hadoop_home/contrib/資料夾下，使用該框架時，除了需要將jar包匯入到工程中，還需要將該jar包匯入到每個hadoop集群節點的hadoop_home/lib/包下。

下面我們來看下datajoin框架式如何處理多資料來源的連線的。

為了完成不同資料來源的鏈結，首先，需要為不同資料來源下的每個記錄定義乙個資料來源標籤（tag）,接著，為了表示每個資料來源下的不同記錄並且完成連線處理，需要為每個資料記錄設定乙個主鍵（groupkey）,然後，datajoin類庫分別在map階段和reduce階段提供乙個處理框架，僅僅留下一些任務有程式設計師完成。下面是處理過程：

[img]

從上述過程可以看到，多資料來源的資料會首先被處理成多個資料記錄，這些記錄是帶有標籤tag和主鍵group key的記錄，因此使用datajoin時，我們需要實現generateinputtag(string inputfile)方法和generatetaggedmapoutput(object value)和generategroupkey(taggedmapoutput arecord)方法，在這個過程中，出現了乙個新的類（即帶有標籤的記錄類），因此我們也要實現自定義的記錄類。在combine過程中，我們會對笛卡爾積的結果進行整合（這也是為何我們把datajoin叫做reduce端連線），因此我們需要實現乙個combine(object tags,object values)方法，注意這個combine和mapreduce框架中的combine是兩個完全不同的東西，忌混淆。

用DataJoin實現多資料來源的Reduce端鏈結

實現多資料來源事務

SpringCloud多資料來源實現

SpringBoot實現多資料來源配置

用DataJoin實現多資料來源的Reduce端鏈結

實現多資料來源事務

SpringCloud多資料來源實現

SpringBoot實現多資料來源配置

相關推薦