-----跨機器轉移資料檔案-----(scp 在linux伺服器之間複製檔案和目錄,cp只能在本機複製,不可以跨伺服器)
scp -r 20170907.tar.gz username@ip~:/export/
---解壓
tar -zxvf 20170907.tar.gz
或者-------將電腦本地檔案在跨集群間hdfs傳檔案-----
建立hdfs資料夾
hadoop fs -mkdir /gpcc
將本地檔案上傳到hdfs資料夾
hdfs dfs -put /home/gpdbadmin/greenplum-cc-web-3.3.1-linux-x86_64.zip /gpcc
傳檔案hadoop dfs -get hdfs://namenode1:50070/gpcc
將第乙個集群中的/gpcc資料夾以及資料夾下的檔案複製到第二個集群中的/home/gpadmin目錄下
hadoop distcp hdfs://namenode1:50070/gpcc hdfs://namenode2:50070/home/gpadmin
(hadoop distcp 集群內部或者集群之間分布式拷貝資料)
小總結一下:
distcp(distributed copy)是用於大規模集群內部或者集群之間的高效能拷貝工具
,和在linux上執行cp,scp實現效果是一致的,不同的是,cp是將本機的檔案和目錄拷貝到本機的其它地方,scp則可以將a機器的檔案或者目錄拷貝到b機器,而distcp則可以實現的是a(hdfs)集群的資料拷貝到b(hdfs)集群,而分布式
使得資料拷貝時,可以實現a級群的dn節點同時向b集群的dn節點傳送資料,突破了單機拷貝的網絡卡速率限制,拷貝效率更高。
---建表
create table....
---檢視表資料位置
desc fromatted tablename;
hadoop fs -put dt=
2017-09-07
---新增分割槽
alter table tablename add partition(dt='2017-09-07');
大資料量採用什麼方式建表
以下是幾種常見的分表演算法。1.按自然時間來分表 分庫 2.按數字型別hash分表 分庫 如果我們要儲存使用者的資訊,我們應用的註冊量很大,我們用單錶是不能滿足儲存需求的,那麼我們就可以用使用者的編號來進行hash,常見的是用取餘操作,如果我們要分30張表來儲存使用者的資訊,那麼使用者編號為1的使用...
大資料量的分表方法
以下是幾種常見的分表演算法。1.按自然時間來分表 分庫 2.按數字型別hash分表 分庫 如果我們要儲存使用者的資訊,我們應用的註冊量很大,我們用單錶是不能滿足儲存需求的,那麼我們就可以用使用者的編號來進行hash,常見的是用取餘操作,如果我們要分30張表來儲存使用者的資訊,那麼使用者編號為1的使用...
大資料量演算法
給40億個不重複的unsigned int的整數,沒排過序的,然後再給乙個數,如何快速判斷這個數是否在那40億個數當中 位圖思想解法 include stdio.h include stdlib.h include memory.h define max num 4294967295 int mai...