MongoDB 同步 Hive 的兩種方式

2021-08-06 00:07:43 字數 343 閱讀 8757

使用 datax

mongodb-based

說明:

1. 如果mongo 文件(即記錄行)字段個數不定,對確實的字段 datax 讀取不到, 最後hive 將產生錯列。 可通過重寫mongodbreader修正。

2. mongodb-based 方式直接連線hidden節點,使用com.mongodb.hadoop.hive.mongostoragehandler做資料serde。

直接處理mongo裡最新的資料,請使用唯讀賬戶連線mongodb,如果使用寫賬戶連線, 萬一hive 表被刪除, 將同時刪除mongodb 對應集合。tez 環境不支援。

MongoDB更新同步的oplog位置

在mongodb中,副本集節點之間為了保持一致性,需要通過oplog的同步與回放來進行。mongodb採用的是節點向源節點主動拉取的方式,從源節點拉取oplog,目的節點需要及時通知其他節點它的最新的同步到的時間點。如上圖所示,2個secondary從primary上面拉取oplog,每當secon...

MongoDB複製集成員的重新同步

複製集成員的重新同步 當複製失敗,且落後於 primary 中oplog最大可承受的範圍的時候,replica set 成員將變為 陳舊 stale 該節點無法追上主節點就變的 陳舊 了。當發生這種情況時,我們就不得不刪除其資料檔案,並通過 initial sync 來重新同步。本教程包含了為陳舊的...

hive與hbase之間資料的同步

資料同步是很多公司在做資料遷移時的乙個痛點,當然網際網路公司有自己的同步機制或者工具,但是困惑了我這幾天的需求,還是沒有得到解決,事已至此,來寫這篇部落格記錄一下自己最近的研究成果。hive如何與hbase直接實現資料同步呢,目前有兩種方案 1.適用場景 資料量不大4t以下 因為需要走hbase的a...