mirrormaker是kafka附帶的乙個用於在kafka集群之間製作映象資料的工具。該工具從源集群中消費並生產到目標群集。這種映象的常見用例是在另乙個資料中心提供副本。
圖1. mirrormaker
對於遷移的topic而言,topic名字一樣, partition數量可以不一樣,訊息的offset會不一樣。
1)whitelist和blacklist支援正規表示式。比如需要包含兩個topic可以這樣寫,--whitelist 'a|b' or --whitelist 'a,b' ,或者想遷移所有topic可以這樣寫 --whitelist '*'
2)注意在遷移之前建立好相關topic以及規劃好partition數量。
3)老版本和新版本遷移主要考慮consumer和producer的相容性
4)如果允許的話,建議將mirrormaker部署在目標集群內,這是因為如果一旦發生網路分割槽,消費者與源集群斷開連線比生產者與目標集群斷開連線要安全。如果消費者斷開連線,那麼只是當前讀取不到資料,但是資料仍然在源集群內,並不會丟失;而生產者斷開連線,mirrormaker便生產不了資料,如果mirrormaker本身處理不當,可能會丟失資料。
5)開始之前配置好限流,防止影響原來集群的正常工作。
1) 檢測mirrormaker提交到源集群的位移。我們可以使用kafka-consumer-groups來檢測分割槽的最新位移以及mirrormaker提交的位移,通過計算差值得到落後間隔。
2) 檢視ckafka的topic相關監控,檢視當前進度
Elasticsearch 跨集群同步
zsearch是目前公司內最大的elasticsearch服務平台,隨著業務的深入,越來越多的關鍵鏈路使用者對資料的可用性和容災能力提出更高的需求,而在這塊領域 社群一直沒有完整的解決策略,原生的 snapshot and restore 只能做快照的恢復,不能做到實時同步 業內主流的佇列分發模式 ...
使用Spark跨集群同步Hive資料
本文適用有入門spark基礎的同學,一些最基礎知識不再贅述 通過閱讀本文即可掌握使用spark跨集群同步hive資料的技巧!眾所周知,業界比較成熟的同步資料工具是sqoop,它是連線關係型資料庫和hadoop的橋梁 比較常用的場景是從mysql等rdb同步到hive hbase或者將hive hba...
集群時間同步
實現方案 1.確認服務端ntp已安裝 root node91 rpm qa grep ntp ntp 2.修改ntp配置檔案 root node91 vi etc ntp.conf 修改內容如下 a 授權本網段所有機器可以從這台機器上查詢和同步時間 restrict mask 255.255.255...