ELK 4 5 加入機器學習

2021-08-03 20:28:29 字數 1499 閱讀 8455

如果你也是 elaticsearch 的粉絲,或者機器學習的愛好者,你肯定不會錯過這個東西。5 月份 elaticsearch 推出了新版本 5.4,準確地說是 elastic stack 全家桶都更新為 5.4 了,在 x-pack 中的 beta 特性中,加入了 machine learning 這個特性,同時也會在 kibana 中有所體現。

據官方部落格報導,他們講 prelert machine learning 的技術應用到了 elastic stack 中,prelert 是 elastic 公司去年 9 月份收購的行為分析技術提供商,意圖是幫助客戶解決網路安全、欺詐檢測、it 運營分析等場景問題。prelert 和 elastic 產品的高度契合,最終成就了這個看起來很炫酷的工具。

報導還稱,「目前,x-pack machine learning 功能的著眼點是,利用無監督式機器學習,提供 「時間序列異常檢測」 功能。以後將計畫增加更多 machine learning 功能,但是我們目前只專注於為使用者儲存的時間序列資料(例如日誌檔案、應用程式和效能指標、網路流量或 elasticsearch 中的財務/交易資料)提供附加值。」 這就是說,大家可能比較期待的有監督學習或者什麼深度學習並沒有整合進來,而更多的還是 elasticsearch 更擅長的時間序列分析。

下面將介紹三種不同的使用用例:

自動提醒關鍵績效指標值的異常變化

自動追蹤數以千計的指標

高階作業

用例1:自動提醒關鍵績效指標值的異常變化

machine learning 功能的首個切入點是單一指標作業,如何識別單變數時間序列資料中存在的異常。如果您發現的異常是有意義的,您就可以連續地實時執行這項分析,並在發生異常時發出警報。產品後台包含大量複雜的無監督式機器學習演算法和統計模型,因此我們對於任意訊號具有魯棒性,並且能夠準確反映。該功能可以在 elasticsearch 集群中像原生程式一樣執行,功能實現進行了優化,

幾秒鐘即可分析數以百萬計

的事件。

用例2:自動追蹤數以千計的指標

machine learning 產品可以擴充套件到

數十萬指標和日誌檔案

,那麼下一步就是要同時分析多個指標。假設我要處理來自一大組應用程式服務的響應時間,我可以直接分析各個服務一段時間以來的響應時間,分別確認各個行為異常的服務,同時展示整體的系統異常情況。

用例3:高階作業

如果您想找出與整體相比行為異常的使用者、異常的 dns 流量,或者倫敦街頭的擁堵路段,這時您就可以利用高階作業,靈活地分析 elasticsearch 中儲存的任何時間序列資料。

elastic stack 整合

安裝 x-pack 之後,就可以使用 machine learning 功能實時分析 elasticsearch 中的時間序列資料。 machine learning 作業與索引和分片基本類似,能夠跨 elasticsearch 集群自動分布和管理。

機器學習 決策樹C4 5 ID3

step1 計算資訊熵 step2 劃分資料集 step3 建立決策樹 step4 利用決策樹分類 重點 選擇乙個屬性進行分支。注意資訊熵計算公式。決策樹作為典型的分類演算法,基本思路是不斷選取產生資訊增益最大的屬性來劃分樣例集和,構造決策樹。資訊增益定義為結點與其子結點的資訊熵之差。1.資訊熵計算...

機器學習 決策樹 ID3, C4 5

概念 決策樹 節點間的組織方式像一棵倒樹,以attribute 為節點,以 attribute 的不同值為分支。重點概念 1.資訊熵 熵是無序性 或不確定性 的度量指標。假如事件a 的全概率劃分是 a1,a2,an 每部分發生的概率是 p1,p2,pn 那資訊熵定義為 通常以 2為底數,所以資訊熵的...

機器學習 決策樹(ID3,C4 5)演算法解析

機器學習 決策樹 id3,c4.5 演算法解析 label 機器學習 決策樹 解析 決策樹實現思路 假設有已知的資料集x 例如某些人的集合,資料內容包括用於描述他們的特徵屬性及特徵屬性值,如性別 男 女 年齡 整數 收入 較低 中等 較高 等 以及資料集的分類標籤y 是否是某俱樂部的成員 是 否 對...