對於日誌來說,最常見的需求就是收集、儲存、查詢、展示,開源社群正好有相對應的開源專案:logstash(收集)、elasticsearch(儲存+搜尋)、kibana(展示),我們將這三個組合起來的技術稱之為elkstack,所以說elkstack指的是elasticsearch、logstash、kibana技術棧的結合,由這三個軟體及其相關的元件可以打造大規模日誌實時處理系統。 elk的官方**為:
更加詳細的資訊可以檢視《elk:簡述對elk架構的認識》。
scribe是facebook開源的日誌收集系統,在facebook內部已經得到的應用。它能夠從各種日誌源上收集日誌,儲存到乙個**儲存系統(可以是nfs,分布式檔案系統等)上,以便於進行集中統計分析處理。當採用hdfs作為**系統時,可以進一步利用hadoop進行處理資料,於是scribe+hdfs+mapreduce方案便誕生了。
apache 的開源專案 hadoop, 作為乙個分布式儲存和計算系統,已經被業界廣泛應用。很多大型企業都有了各自基於 hadoop 的應用和相關擴充套件。當 1000+ 以上個節點的 hadoop 集群變得常見時,集群自身的相關資訊如何收集和分析呢?針對這個問題, apache 同樣提出了相應的解決方案,那就是 chukwa。
chukwa 的官方**是這樣描述自己的: chukwa 是乙個開源的用於監控大型分布式系統的資料收集系統。這是構建在 hadoop 的 hdfs 和 map/reduce 框架之上的,繼承了 hadoop 的可伸縮性和健壯性。chukwa 還包含了乙個強大和靈活的工具集,可用於展示、監控和分析已收集的資料。 在一些**上,甚至聲稱 chukwa 是乙個「日誌處理/分析的full stack solution」。
flume最早是cloudera提供的日誌收集系統,目前是apache下的乙個孵化專案,flume支援在日誌系統中定製各類資料傳送方,用於收集資料。
flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力 。flume提供了從console(控制台)、rpc(thrift-rpc)、text(檔案)、tail(unix tail)、syslog(syslog日誌系統),支援tcp和udp等2種模式),exec(命令執行)等資料來源上收集資料的能力。
kafka是一種高吞吐量的分布式發布訂閱訊息系統,它可以處理消費者規模的**中的所有動作流資料。 這種動作(網頁瀏覽,搜尋和其他使用者的行動)是在現代網路上的許多社會功能的乙個關鍵因素。 這些資料通常是由於吞吐量的要求而通過處理日誌和日誌聚合來解決。 對於像hadoop的一樣的日誌資料和離線分析系統,但又要求實時處理的限制,這是乙個可行的解決方案。kafka的目的是通過hadoop的並行載入機制來統一線上和離線的訊息處理,也是為了通過集群來提供實時的消費。
簡述對CT,IT,ICT,OT的認識
最早的ct業被稱為電信業,telecommunication。那是因為最早期的通訊都是電報 之類的技術,所以也被稱為電信技術。通訊業的企業又分為運營商 通訊製造業 通訊服務支援,一些通訊業的施工單位等。通訊業的運營商在國內我們比較熟悉的是中國移動 中國聯通 中國電信,現在又多了乙個中國廣電。通訊業的...
SDN 簡述對SDN的認識
sdn 即軟體定義網路 software defined network sdn只是一種架構,一種思想,具體的實現多種多樣,openflow只是其中一種。sdn的三個本質屬性 a.認為只要符合控制跟 分離 b.有開放的程式設計介面 c.集中式的控制就可以認為是sdn。基於這樣一種理念,某個產品或者方...
對軟體的認識
1.軟體的定義 我們都知道軟體作為資訊化的核心,在個人學習 生活 娛樂,社會管理,國家經濟軍事的發展中都起到了至關重要的推動作用。他的發展速度及帶來的巨變都令人驚呼。那麼這種高投入 高產出 低能耗 無汙染的 軟體 到底是什麼呢?在大多數人的普遍認識中軟體或許就是程式設計人員通過 來實現電腦中的乙個可...