hdfs命令基本格式:hadoop fs -cmd < args >
hadoop fs -ls /
列出hdfs檔案系統根目錄下的目錄和檔案
hadoop fs -ls -r /
列出hdfs檔案系統所有的目錄和檔案
hadoop fs -put < local file > < hdfs file >
hdfs file的父目錄一定要存在,否則命令不會執行
hadoop fs -put < local file or dir >…< hdfs dir >
hdfs dir 一定要存在,否則命令不會執行
hadoop fs -get < hdfs file > < local file or dir>
local file不能和 hdfs file名字不能相同,否則會提示檔案已存在,沒有重名的檔案會複製到本地
hadoop fs -get < hdfs file or dir > … < local dir >
拷貝多個檔案或目錄到本地時,本地要為資料夾路徑
hadoop fs -rm -r -f < hdfs file > …
刪除單個檔案
hadoop fs -rm -r < hdfs dir>…
每次可以刪除多個檔案或目錄
hadoop fs -mkdir < hdfs path>
只能一級一級的建目錄,父目錄不存在的話使用這個命令會報錯
hadoop fs -mkdir -p < hdfs path>
所建立的目錄如果父目錄不存在就建立該父目錄
hadoop fs -cp < hdfs file > < hdfs file >
目標檔案不能存在,否則命令不能執行,相當於給檔案重新命名並儲存,原始檔還存在
hadoop fs -cp < hdfs file or dir >… < hdfs dir >
目標資料夾要存在,否則命令不能執行
hadoop fs -mv < hdfs file > < hdfs file >
目標檔案不能存在,否則命令不能執行,相當於給檔案重新命名並儲存,原始檔不存在
hadoop fs -mv < hdfs file or dir >… < hdfs dir >
源路徑有多個時,目標路徑必須為目錄,且必須存在。
hadoop fs -count < hdfs path >
統計hdfs對應路徑下的目錄個數,檔案個數,檔案總計大小
顯示為目錄個數,檔案個數,檔案總計大小,輸入路徑
hadoop fs -du < hdsf path>
顯示hdfs對應路徑下每個資料夾和檔案的大小
hadoop fs -du -s < hdsf path>
顯示hdfs對應路徑下所有檔案和的大小
hadoop fs -du - h < hdsf path>
顯示hdfs對應路徑下每個資料夾和檔案的大小,檔案的大小用方便閱讀的形式表示,例如用64m代替67108864
hadoop fs -text < hdsf file>
將文字檔案或某些格式的非文字檔案通過文字格式輸出
hadoop fs -tail < hdfs file >
在標準輸出中顯示檔案末尾的1kb資料
(1) 列出hdfs下的檔案hadoop fs -ls /(2) 上傳檔案將hadoop目錄下的test1檔案上傳到hdfs上並重命名為test:
hadoop fs -put ./test1 /test(3) 檔案被複製到本地系統中將hdfs中的test檔案複製到本地系統並命名為getin:
hadoop fs -get /test ~/getin(4) 刪除文件刪除hdfs下名為out的文件:
hadoop fs -rm -r -f /out(5) 檢視檔案檢視hdfs下test檔案中的內容:
hadoop fs -cat /datas/test/*(6) 建立目錄hadoop fs -mkdir -p /user/hadoop/test
大資料入門基礎Hadoop生態圈介紹 HDFS
由於單機的儲存能力有限,難以儲存日益增長的資料,於是我們便將資料分配到多個機器中進行儲存,因此我們迫切需要一種系統方便管理和維護多台機器上的儲存資料的檔案,這就是分布式檔案系統。hdfs只是分布式檔案系統中的一種。優點 1 高容錯性 1 資料自動儲存多個副本。它通過增加副本的形式,提高容錯性。2 某...
大資料hadoop系列 Hive優化
map階段的優化 作業會通過input的目錄產生乙個或多個map任務。a 假設input目錄下有1個檔案a,大小為780m,那麼hadoop會將該檔案a分隔成7個塊 6個128m的塊和1個12m的塊 從而產生7個map數 b 假設input目錄下有3個檔案a,b,c,大小分別為10m,20m,130...
大資料時代之hadoop 了解hadoop資料流
了解hadoop,首先就需要先了解hadoop的資料流,就像了解servlet的生命週期似的。hadoop是乙個分布式儲存 hdfs 和分布式計算框架 mapreduce 但是hadoop也有乙個很重要的特性 hadoop會將mapreduce計算移動到儲存有部分資料的各台機器上。術語 mapred...