對大資料進行實時分析

2021-09-04 11:57:16 字數 784 閱讀 8026

大資料分析(bda)包括大資料的採集、儲存、分析、展示。而其中分析是bda的關鍵。說到分析,可以分為歷史分析和實時分析。上次我們著重提過了歷史分析,尤其是互動式歷史分析,當然還有批處理式的歷史分析。

這次,我們回過頭來再談談實時分析,包括流處理、cep,等等。

說到cep,複雜事件處理(complex event process),在2023年的時候我就有博文提及過。經過這麼些年,cep技術不斷演進,越來越實用化。yahoo!的s4算是乙個使用的cep引擎,當然,還有我們今天談及的strom,這個twitter的cep引擎。

在今天的develperworks上有篇文章談到了storm,大家可以看看,包括後面的參考鏈結。

流處理在進行實時分析的時候具有天然的優勢,尤其是在相對於基於資料的分析的時候。流具有很高的實時性。

傳統關係型資料庫

流資料庫

關係型資料庫

物件導向的資料庫,包括

pojo 磁碟

/記憶體處理

記憶體處理

表(靜態)

流(動態、基於時間視窗) 記錄

事件 被動

sql查詢

主動模式匹配(

eql,事件查詢語言)

eql也有稱為cql,持續查詢語言。

目前,在我們的siem產品中,關聯分析引擎採用了cep技術。

開源的cep也不不少,例如esper,不過,要真正應用到siem中,還需要較大的修改,直接用還是不合適的。關鍵是要理解cep的精髓。呵呵。

【參考】

對大資料進行互動式分析

對大資料進行實時分析

大資料分析 bda 包括大資料的採集 儲存 分析 展示。而其中分析是bda的關鍵。說到分析,可以分為歷史分析和實時分析。上次我們著重提過了歷史分析,尤其是互動式歷史分析,當然還有批處理式的歷史分析。這次,我們回過頭來再談談實時分析,包括流處理 cep,等等。說到cep,複雜事件處理 complex ...

實時Web資料的實時分析

鄭昀 玩聚sr 20100306 但是實時分析就不那麼容易了。實時分析大致有幾種 熱門鏈結分析 把關聯結果中相對熱門 相對重要的鏈結挑出來,單獨展示,可以按時間排序或按重要性排序。oneriot比較擅長這一點,如搜尋chile。熱門鏈結的甄選一般都是依據twitter等微部落格訊息的鏈結分享次數。語...

資料實時分析平台 Heron

twitter發布了新開發的資料實時分析平台heron,以下為官方文件摘譯 我們每天在twitter上處理著數十億的事件。正如你猜測的那樣,實時分析這些事件是乙個巨大的挑戰。目前,我們主要的分析平台是開源的分布式流計算系統storm。但是隨著twitter資料規模變大和多樣化,我們的需求已經發生了改...