大資料量的建表導資料

-----跨機器轉移資料檔案-----（scp 在linux伺服器之間複製檔案和目錄,cp只能在本機複製，不可以跨伺服器）

scp -r 20170907.tar.gz username@ip~:/export/

---解壓

tar -zxvf 20170907.tar.gz

或者-------將電腦本地檔案在跨集群間hdfs傳檔案-----

建立hdfs資料夾

hadoop fs -mkdir /gpcc

將本地檔案上傳到hdfs資料夾

hdfs dfs -put /home/gpdbadmin/greenplum-cc-web-3.3.1-linux-x86_64.zip /gpcc

傳檔案hadoop dfs -get hdfs://namenode1:50070/gpcc

將第乙個集群中的/gpcc資料夾以及資料夾下的檔案複製到第二個集群中的/home/gpadmin目錄下

hadoop distcp hdfs://namenode1:50070/gpcc hdfs://namenode2:50070/home/gpadmin

(hadoop distcp 集群內部或者集群之間分布式拷貝資料)

小總結一下：

distcp（distributed copy）是用於大規模集群內部或者集群之間的高效能拷貝工具

，和在linux上執行cp，scp實現效果是一致的，不同的是，cp是將本機的檔案和目錄拷貝到本機的其它地方，scp則可以將a機器的檔案或者目錄拷貝到b機器，而distcp則可以實現的是a（hdfs）集群的資料拷貝到b（hdfs）集群，而分布式

使得資料拷貝時，可以實現a級群的dn節點同時向b集群的dn節點傳送資料，突破了單機拷貝的網絡卡速率限制，拷貝效率更高。

---建表

create table....

---檢視表資料位置

desc fromatted tablename;

hadoop fs -put dt=

2017-09-07

---新增分割槽

alter table tablename add partition(dt='2017-09-07');

大資料量採用什麼方式建表

以下是幾種常見的分表演算法。1.按自然時間來分表分庫 2.按數字型別hash分表分庫如果我們要儲存使用者的資訊，我們應用的註冊量很大，我們用單錶是不能滿足儲存需求的，那麼我們就可以用使用者的編號來進行hash，常見的是用取餘操作，如果我們要分30張表來儲存使用者的資訊，那麼使用者編號為1的使用...

大資料量的分表方法

大資料量演算法

給40億個不重複的unsigned int的整數，沒排過序的，然後再給乙個數，如何快速判斷這個數是否在那40億個數當中位圖思想解法 include stdio.h include stdlib.h include memory.h define max num 4294967295 int mai...

大資料量的建表 導資料

大資料量採用什麼方式建表

大資料量的分表方法

大資料量演算法

相關推薦

大資料量的建表導資料