集群檔案遷移

概述：

資料遷移的場景：集群資料整體搬遷；資料的準實時同步（資料的雙備份可用），冷熱集群資料分類儲存（線上的資料和另外乙個冷資料集群）

因為一般沒有對資料的隨機插入，所以沒有某個資料內容被修改的情況。上面的兩個情況可通過元資訊比較出來。

一般情況下是對資料進行追加。一些判斷的方法：

先比較檔案大小。如改變，擷取對應原始長度部分進行checksum比較，如果此checksum不變，則此檔案必定發生過改變。

如果檔案大小一致，則計算相應的checksum，然後比較2者的cheksum。

4.syncable-資料遷移的同步性

資料遷移的過程中需要保證週期內資料是一定能夠同步完的,不能差距太大

因為近期需要做這個事情,在網上整理了這些資料.下面提供乙個查到的指令碼.

#!/bin/bash
#set -x
db=$0
# 遷移指令碼：第一次拷貝時候使用
# 傳入引數：資料庫名
#獲取hive表的定義:可以新增不需要遷移的表
ret=$(hive -e
'use $;show tables;' | grep -v _es| grep -v _hb|grep -v importinfo)
for tem in
$ret:
do    hive -e
"use $;show create table $tem" >> /tmp/creat.sh
echo
-e';\n' >> /tmp/creat.sh
done
#這裡需要處理乙個問題：使用show creat table時候會產生一些不需要的東西。需要再進行刪除一些東西。
#遷移hive表資料
ret=$(hive -e
'use $;show tables;' | grep -v _es|grep -v _hb|grep -v importinfo)
for tem in
$ret:
do    hadoop distcp hdfs://src:8020/usr/hive/warehouse/$.db/$tem hdfs: >> /hdfs/yxy/$/$tem.log 2>&1
done

集群資料遷移

靜態遷移方案必須在hbase集群停掉的情況下進行 hadoop distcp 動態遷移方案三種 replication備份方案修改hbase site.xml配置，增加hbase.replication屬性，增加表屬性replication scope屬性 add peer copytable...

遷移hive，不同集群。

step1 設定預設需要匯出的hive資料庫為defaultdatabase 在原集群中的任意節點上，新建 hiverc 檔案，加入如下內容 vi hiverc use defaultdatabase defaultdatabase可修改為需要遷移的其它名稱 step2 建立資料臨時目錄 hdfs ...

Hive跨集群遷移

hive跨集群遷移資料工作是會出現的事情,其中涉及到資料遷移,metastore遷移,hive版本公升級等。1.遷移hdfs資料至新集群 hadoop distcp skipcrccheck update hdfs hdfs skipcrccheck 因本次遷移涉及低版本遷移高版本,如果hadoop...

集群檔案遷移

集群資料遷移

遷移hive，不同集群。

Hive跨集群遷移

相關推薦