新集群的資料遷移到老集群,往往會遇到很多問題
1.小檔案多
2.老集群效能比較差
3.資料量大
使用資料遷移工具nifi
該工具的特點是輕量,對小檔案遷移支援度高,大檔案遷移慢
遇到的問題
1.曾經在老集群寫spark程式合併小檔案,但老集群效能比較低,程式跑了一晚上都沒有合併完成乙個月
2.將小集群的日分割槽合併成乙個大檔案,用nifi做遷移,發現速度沒有得到提公升,感覺還變慢了
故先把老集群資料用nifi遷移到新集群,在新集群裡面合併小檔案
遷移過程
老集群-nifi-新集群臨時表-合併小檔案-新集群正式表
hive資料遷移
資料遷移指令碼 1 在原集群上建立,並設定相應許可權 hadoop fs mkdir tmp hive export 2 生成匯出指令碼 hive e use fangyc show tables awk sed s g export.hql fangyc 是資料庫名,根據實際情況修改 3 手工匯出...
hive資料遷移
網路互通的兩個hadoop集群中,可執行如下命令,將nn1節點所在集群a上目錄a.dir拷貝到nn2節點所在集群b目的b.dir上 hadoop distcp i hdfs nn1 8020 a.dir hdfs nn2 8020 b.dir詳情參考 設定預設需要匯出的hive資料庫為default...
資料遷移 Hive
方式 1 使用hive sql進行資料的匯入匯出 2 export import方式 方式 1 將資料匯出到本地 insert overwrite local directory 路徑 row format delimited fields terminated by select 欄位1,欄位2 ...