概述:因為一般沒有對資料的隨機插入,所以沒有某個資料內容被修改的情況。上面的兩個情況可通過元資訊比較出來。資料遷移的場景:集群資料整體搬遷;資料的準實時同步(資料的雙備份可用),冷熱集群資料分類儲存(線上的資料和另外乙個冷資料集群)
一般情況下是對資料進行追加。一些判斷的方法:
先比較檔案大小。如改變,擷取對應原始長度部分進行checksum比較,如果此checksum不變,則此檔案必定發生過改變。
如果檔案大小一致,則計算相應的checksum,然後比較2者的cheksum。
4.syncable-資料遷移的同步性
資料遷移的過程中需要保證週期內資料是一定能夠同步完的,不能差距太大
因為近期需要做這個事情,在網上整理了這些資料.下面提供乙個查到的指令碼.
#!/bin/bash
#set -x
db=$0
# 遷移指令碼:第一次拷貝時候使用
# 傳入引數:資料庫名
#獲取hive表的定義:可以新增不需要遷移的表
ret=$(hive -e
'use $;show tables;' | grep -v _es| grep -v _hb|grep -v importinfo)
for tem in
$ret:
do hive -e
"use $;show create table $tem" >> /tmp/creat.sh
echo
-e';\n' >> /tmp/creat.sh
done
#這裡需要處理乙個問題:使用show creat table時候會產生一些不需要的東西。需要再進行刪除一些東西。
#遷移hive表資料
ret=$(hive -e
'use $;show tables;' | grep -v _es|grep -v _hb|grep -v importinfo)
for tem in
$ret:
do hadoop distcp hdfs://src:8020/usr/hive/warehouse/$.db/$tem hdfs: >> /hdfs/yxy/$/$tem.log 2>&1
done
集群資料遷移
靜態遷移方案 必須在hbase集群停掉的情況下進行 hadoop distcp 動態遷移方案 三種 replication備份方案 修改hbase site.xml配置,增加hbase.replication屬性,增加表屬性replication scope屬性 add peer copytable...
遷移hive,不同集群。
step1 設定預設需要匯出的hive資料庫為defaultdatabase 在原集群中的任意節點上,新建 hiverc 檔案,加入如下內容 vi hiverc use defaultdatabase defaultdatabase可修改為需要遷移的其它名稱 step2 建立資料臨時目錄 hdfs ...
Hive跨集群遷移
hive跨集群遷移資料工作是會出現的事情,其中涉及到資料遷移,metastore遷移,hive版本公升級等。1.遷移hdfs資料至新集群 hadoop distcp skipcrccheck update hdfs hdfs skipcrccheck 因本次遷移涉及低版本遷移高版本,如果hadoop...