安裝步驟:
1、安裝虛擬機器系統,並進行準備工作(可安裝- 乙個然後轉殖)
2.修改各個虛擬機器的hostname和host
3.建立使用者組和使用者
4、配置虛擬機器網路,使虛擬機器系統之間以及和host主機之間可以通過
相互ping通。
5.安裝jdk和配置環境變數,檢查是否配置成功
6、配置ssh,實現節點間的無密碼登入ssh node1/2指令驗證時候成
功7、master 配置hadoop,並將hadoop檔案傳輸到node節點
8、配置環境變數,並啟動hadoop, 檢查是否安裝成功,執行wordcou
nt檢查是否成功。
二.hdfs作用是什麼
hadoop分布式檔案系統(hdfs)是指被設計成適合執行在通用硬體(commodity hardware)上的分布式檔案系統(distributed file system)。它和現有的分布式檔案系統有很多共同點。但同時,它和其他的分布式檔案系統的區別也是很明顯的。hdfs是乙個高度容錯性的系統,適合部署在廉價的機器上。hdfs能提供高吞吐量的資料訪問,非常適合大規模資料集上的應用。hdfs放寬了一部分posix約束,來實現流式讀取檔案系統資料的目的。hdfs在最開始是作為apache nutch搜尋引擎專案的基礎架構而開發的。hdfs是apache hadoop core專案的一部分。
hdfs有著高容錯性(fault-tolerant)的特點,並且設計用來部署在低廉的(low-cost)硬體上。而且它提供高吞吐量(high throughput)來訪問應用程式的資料,適合那些有著超大資料集(large data set)的應用程式。hdfs放寬了(relax)posix的要求(requirements)這樣可以實現流的形式訪問(streaming access)檔案系統中的資料。
三.常用的hadoop fs shell命令有哪些及其作用
1.呼叫hadoop的檔案系統shell(filesystem shell)的命令格式:
語法:hadoop fs :前提是位置位於hadoop/bin下,其中fs是引數,表示fs shell,是fs的子命令
2.使用fs shell命令列管理檔案:
mkdir -建立目錄
語法:hadoop fs -mkdir
例子:hadoop fs -mkdir /user:在hdfs中建立"/user"目錄
hadoop fs -mkdir /user/hadoop:在hdfs中建立"/user/hadoop"目錄
hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2:在hdfs中同時建立"/user/hadoop/dir1"和"/user/hadoop/dir2",目錄
ls -檢視列表檔案
語法:hadoop fs -ls
如果是檔案,則按照如下格式返回檔案資訊:
檔名《副本數》 檔案大小 修改日期 修改時間 許可權 使用者id 組id
如果是目錄,則返回它直接子檔案的乙個列表
cat -檢視檔案
語法:hadoop fs -cat uri :輸出路徑指定檔案的內容
例子:hadoop fs -cat /input2/file1.txt /input2/file2.txt:在hdfs中檢視input2目錄下的file1.txt和file2.txt的檔案內容
put -從本地檔案系統中複製乙個或多個檔案到hdfs(外部命令)
語法:hadoop fs -put ...
其中localsrc只能是本地檔案,dst只能是hdfs檔案,且不受fs.defaultfs屬性影響。
例子:hadoop fs -put /home/hduser/file/file1.txt /input2
-將本地檔案複製到hdfs目錄"input2"
hadoop fs -put /home/hduser/file/file1.txt /home/hduser/file/file2.txt /input2
-將多個本地檔案複製到hdfs目錄"input2"
hadoop fs -put - /input2/file3
-從標準輸入中讀取輸入,按ctrl+c組合鍵退出並儲存到"file3"
get -複製hdfs檔案到本地系統(外部命令,是put命令的逆操作)
語法:hadoop fs -get
其中src只能是hdfs檔案,localdst只能是本地檔案,且同樣不受fs.defaultfs屬性影響
例子:hadoop fs -get /input2/file1.txt /sa/file
-將hdfs目錄"input2"下的file1.txt檔案複製到本地系統目錄"sa"下的file資料夾中
mv -移動、剪下命令
語法:hadoop fs -mv uri [uri...] :將檔案從源路徑移動到目標路徑,允許多個源路徑,目標路徑必須是乙個目錄
例子:hadoop fs -mv /input2/file1.txt /input2/file2.txt /user/hadoop/dir1
-將hdfs上"input2"資料夾中的file1.txt和file2.txt檔案移動到"/user/hadoop/dir1"資料夾中
cp -複製命令
語法:hadoop fs -cp uri [uri...] :將檔案從源路徑複製到目標路徑,允許多個源路徑,目標路徑必須是乙個目錄
例子:hadoop fs -cp /input2/file1.txt /input2/file2.txt /user/hadoop/dir1
-將hdfs上"input2"資料夾中的file1.txt和file2.txt檔案複製到"/user/hadoop/dir1"資料夾中
rm、rmr -刪除檔案
1.rm命令
語法:hadoop fs -rm uri [uri...]
刪除指定的檔案,只刪除非空目錄和檔案
例子:hadoop fs -rm /input2/file1.txt
-在hdfs中刪除input2資料夾下的file1.txt檔案
2.rmr命令
語法:hadoop fs -rmr uri [uri...]
rm的遞迴版本,整個資料夾及子檔案將全部刪除
例子:hadoop fs -rmr /user/hadoop/dir1
-在hdfs中直接刪除" /user/hadoop/dir1"路徑中dir1資料夾及該資料夾中的子檔案
test、du、expubge -管理命令
1.test命令
語法:hadoop fs -test -[選項] uri
選項:-e:檢查檔案是否存在,如果存在則返回0,不存在返回1;
-z:檢查檔案是否存在內容,有內容返回1,沒有內容返回0(檢查檔案的大小是否是0位元組,檔案大小是0位元組返回0,不是0位元組返回1);
-d:檢查路徑是否為目錄,如果是則返回1,不是則返回0.
例子:hadoop fs -test -e /input2/file1.txt
-檢查檔案是否存在
echo $? -#"$?"是linux變數,儲存上一條命令的返回值,"echo $?"表示輸出命令列返回的數值。
2.du命令
語法:hadoop fs -du uri [uri...]
-顯示目錄中所有檔案的大小
例子:hadoop fs -du /input2
-在hdfs中顯示input2資料夾的大小,如果是目錄則列出所有檔案及其大小
hadoop fs -du /input2/file1.txt
-在hdfs中顯示input2資料夾下fil1.txt檔案的大小,如果是目錄則統計總大小
3.expunge命令
語法:hadoop fs -expunge
-清空**站
$hadoop_home/share/doc/hadoop/hadoop-project-dist/hadoop-common/filesystemshell.html
Hadoop安裝步驟
二 解壓 tar zxvf hadoop 3.0.3.tar.gz三 配置環境變數 1 設定環境變數 在 etc profile下,新增 export hadoop home opt hadoop export path path opt hadoop bin opt hadoop sbin 2 s...
大資料 Hadoop簡述
摘要 1個人 doug cutting 2個公司 google cloudera 命名由來 doug cutting 起先給他孩子的1個棕色的大象的玩具的名字 簡短 容易發音 易於拼寫 最初的模組 hdfs 與 mapreduce 後期不斷加入hbase hive等子模組專案,直至最終hadoop泛...
敏捷開發步驟簡述
這個部分的內容由pm具體負責,主要的工作內容如下 使用者調研 需求分析,確定產品迭代功能,出具產品backlog。決定產品的發布日期與發布內容,給迭代計畫預設目標。根據rio 商業價值 工作量 排序優先順序,考慮必要風險。優先順序排序 排序的目的,是弄清楚哪些需求最重要因此可能在最近的一兩次迭代中進...