1. 啟動指令碼
mr-jobhistory-daemon.sh start historyserver
2. 配置說明
jobhistory用於查詢每個job執行完以後的歷史日誌資訊,是作為一台單獨的伺服器執行的。可以在namenode或者datanode上的任意一台啟動即可。
預設的配置如下,但是需要手工修改為我們指定的那台伺服器。
<property
>
<
name
>mapreduce.jobhistory.address
name
>
<
value
>0.0.0.0:10020
value
>
property
>
<
property
>
<
name
name
>
<
value
>0.0.0.0:19888
value
>
property
>
引數配置在mapred-site.xml檔案中。如果將history伺服器配置在namenode2中,修改如下:
<property
>
<
name
>mapreduce.jobhistory.address
name
>
<
value
>dwtest-name2:10020
value
>
property
>
<
property
>
<
name
name
>
<
value
>dwtest-name2:19888
value
>
property
>
3.日誌儲存過程
jobhistory server來實現web檢視作業的歷史運**況,日誌儲存的位置是在hdfs檔案系統中。
當job作業在執行中時,可以直接通過web檢視作業的執行狀況, 此時的記錄儲存在$ 路徑下。
當job作業執行完成後,會將$目錄下的日誌檔案移動到歷史資料夾$中。
$ 和 $ 在mapred-site.xml中配置。
如果沒有啟動jobhistory程序,就無法檢視歷史執行的明細資訊。
當由於在啟動hdfs和yarn程序之後,jobhistoryserver程序並沒有啟動,需要手動啟動。
注意: jobhistory是乙個單一的歷史伺服器,不需要在集群中啟動多個服務。使用時,需要在配置檔案中指定乙個伺服器,然後啟動historyserver服務。
hadoop中的檔案壓縮
1 減少磁碟的儲存空間 2 減少磁碟io和網路io 3 加快資料傳輸速度 磁碟和網路 如果小檔案多明顯檔案傳輸會明顯降低 1 考慮檔案的壓縮效率 壓縮快慢 2 考慮檔案的壓縮比 解壓快慢 第一點好理解,壓縮的快肯定好 第二點是壓縮比,舉例現在有乙個10g的檔案,一種壓縮演算法能把他壓縮成1g,其他壓...
Hadoop中的jobhistory配置與啟動停止
hadoop中的jobhistory配置與啟動停止 jobhistory配置 在yarn site.xml中新增 開啟日誌聚合 yarn.log aggregation enable true 在mapred site.xml中新增 設定jobhistoryserver 沒有配置的話 history...
SequenceFile在Hadoop中使用
概念 sequencefile是乙個由二進位制序列化過的key value的位元組流組成的文字儲存檔案,它可以在map reduce過程中的input output 的format時被使用。在map reduce過程中,map處理檔案的臨時輸出就是使用sequencefile處理過的。所以一般的se...