使用者命令
本文件翻譯hadoop的命令手冊,來自hadoop commands guide
所有的hadoop命令可以通過bin/hadoop指令碼進行呼叫。執行這個指令碼沒有新增任何引數的話就會列印所有命令的詳情。
用法:hadoop [--config confdir] [--loglevel loglevel] [command] [generic_options] [command_options]
字段
詳情–config confdir
覆蓋預設的配置目錄. 預設的配置目錄是$/conf
。
–loglevel loglevel
覆蓋日誌級別。有效的日誌級別是fatal, error, warn, info, debug, 和trace。預設是info.
generic_options
支援多個命令的通用選項集
command_options
本文件中介紹了hadoop公共子專案的各種命令及其選項。hdfs和yarn在其他文件中被提到
許多子命令都支援一組通用的配置選項來改變它們的行為:
通用選項
詳情archives 《逗號分隔的歸檔列表》
conf
指定配置檔案
d =給對應的屬性賦值
files 《逗號分隔的檔案列表》
指定乙個逗號分隔的檔案列表,可以被複製到mapreduce集群中。在job中使用
fs 或者 hdfs://namenode:port
指定預設的檔案的url. 覆蓋配置中的』fs.defaultfs』屬性
jt 或者 resourcemanager:port
指定乙個resourcemanager。在job中使用
libjars
指定逗號分隔的jar包到classpath。在job中使用
對hadoop集群的使用者有用的命令。
建立乙個hadoop歸檔。翻譯自hadoop archives guide 概述
hadoop檔案是特殊格式的檔案。乙個hadoop存檔對映到檔案系統目錄。 hadoop存檔總是具有* .har副檔名。hadoop歸檔目錄包含元資料(以_index和_masterindex的形式)和data(part-* )檔案。_index檔案包含部分歸檔檔案的名字和這些檔案的所在位置。
如何建立乙個檔案
用法:hadoop archieve -archivename name -p [-r ] *
-archivename 是你將要建立的檔案的名字。例如:foo.har。名字應該要有*.har
的擴充套件。
parent引數指定了檔案關聯的檔案的相對路徑,例如:
-p /foo/bar a/b/c e/f/g
這裡的/foo/bar是父路徑,而a/b/c,e/f/g是相對父路徑的相對路徑。注意到map/reduce會建立乙個檔案。你需要乙個mapreduce集群來執行它。後面章節有乙個詳細的例子。
-r 表示需要複製的元素;如果可選引數未被指定, a replication factor of 3 will be used.(?)
如果你想要歸檔乙個目錄:/foo/bar
你可以使用下面的**:
hadoop archive -archivename zoo.har -p /foo/bar -r 3 /outputdir
如果指定加密區中的原始檔,它們將被解密並寫入存檔。 如果har檔案不在加密區中,則它們將以明文(解密)形式儲存。 如果har檔案位於加密區域,則它們將以加密形式儲存。
如何在檔案中尋找乙個檔案
存檔將自身公開為檔案系統層。 因此,歸檔中的所有fs shell命令都可以工作,但具有不同的uri。 另請注意,檔案是不可變的。 因此,重新命名,刪除和建立會返回錯誤。 hadoop archives的uri是
har ://scheme-hostname:port/archivepath/fileinarchive
如果檔案系統中沒有scheme提供。這種情況下的uri有以下形式
har:///archivepath/fileinarchive
如何開啟乙個檔案
由於歸檔中的所有fs shell命令都是透明的,因此歸檔只是複製的問題。
按順序開啟乙個檔案:
hdfs dfs -cp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir
使用distcp並行開啟乙個檔案:
hadoop distcp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir
歸檔的例子
用法:hadoop classpath [--glob |--jar |-h |--help]
command_option
描述–glob
擴充套件萬用字元
–jar path
write classpath as manifest in jar named path
-h, --help
列印幫助文件
列印獲取hadoop jar和所需庫所需的類路徑。 如果不帶引數呼叫,則列印由命令指令碼設定的類路徑,該指令碼可能在類路徑條目中包含萬用字元。 其他選項在萬用字元擴充套件後列印類路徑,或將類路徑寫入jar檔案的清單中。 後者在無法使用萬用字元且擴充套件類路徑超過支援的最大命令列長度的環境中非常有用。
後面內容目前用不上,不看了=。=
Hadoop命令手冊使用指南
hadoop命令手冊 所有的hadoop命令均由bin hadoop指令碼引發。不指定引數執行hadoop指令碼會列印所有命令的描述。用法 hadoop configconfdir command generic options command options hadoop有乙個選項解析框架用於解析...
Hadoop 權威指南
rpm包和deb包是兩種linux系統下最常見的安裝包格式,在安裝一些軟體或服務的時候免不了要和它們打交道。rpm包主要應用在redhat系列包括 fedora等發行版的linux系統上,deb包主要應用於debian系列包括現在比較流行的ubuntu等發行版上。yum可以用於運作rpm包,例如在f...
Hadoop權威指南摘抄 初識Hadoop
初識hadoop 古代,人們用牛來拉重物,當一頭牛拉不動一根圓木時,他們不曾想過培育更大更壯的牛。同樣,我們也不需要嘗試開發超級計算機,而應該結合使用更多計算機。格蕾斯.霍珀 資料的儲存與分析 大資料時代,磁碟儲存容量快速增加的同時,其訪問速度 磁碟資料讀取速度缺未能與時俱進。1990年,乙個137...