使用 Apache Hadoop 處理日誌

2021-09-05 02:13:41 字數 500 閱讀 2271

這篇文章來自developerworks。

內容提要:

日誌是任何計算系統中乙個必不可少的部分,支援從審計到錯誤管理等功能。隨著日誌的發展和日誌**數量的不斷增加(比如在雲環境中),有必要提供乙個可 擴充套件的系統來高效處理日誌。這篇實踐將**如何在典型 linux 系統上使用 apache hadoop 來處理日誌。

日誌形態千差萬別,但隨著應用程式和基礎架構的發展,結果產生了大量對使用者有用的分布式資料。從 web 和郵件伺服器到核心和引導日誌,許多現代的伺服器擁有豐富的資訊集。大量的分布式資料是 apache hadoop 的完美應用,就像日誌檔案(按時間排序的結構化文字資料)一樣。

您可以使用日誌處理來提取各種資訊。其中最常用的一種用法是提取錯誤,或是對某個系統中的一些事件(比如登入失敗)的發生次數進行計數。您還 可以提取某些型別的效能資料,比如每秒連線數或每秒處理的事務數。其他有用的資訊包括 web 日誌中的站點訪問量(減少)的提取(對映)和構造。這一分析除了支援檢測檔案訪問統計之外,還支援對惟一使用者訪問的檢測。

Apache Hadoop與CDH HDP的比較

不收費的hadoop版本主要有三個 均是國外廠商 分別是 apache 最原始的版本,所有發行版均基於這個版本進行改進 cloudera版本 cloudera s distribution including apache hadoop,簡稱cdh hortonworks版本 hortonworks...

Apache Hadoop的重要組成

狹義的hadoop 指的是乙個框架,hadoop是由三部分組成 hdfs 分布式檔案系統 儲存 mapreduce 分布式離線計算框架 計算 yarn 資源排程框架 廣義的hadoop 廣義hadoop是不僅僅包含hadoop框架,除了hadoop框架之外還有一些輔助框 架。flume 日誌資料採集...

Apache hadoop當前各個版本說明

當前apapche hadoop有幾種不同的版本,首先從官方 截個圖 注意,今天是2013年8月21日 對照上圖進行相應說明 1.2.x 當前可使用的最穩定的版本 2.x.x 當前的最新版的alpha版本 0.23.x 跟 2.x.x 版本相似但是沒有nn和ha.0.22.x 不包括安全功能 0.2...