鄭昀@玩聚sr 20100306
但是實時分析就不那麼容易了。實時分析大致有幾種:
熱門鏈結分析:把關聯結果中相對熱門、相對重要的鏈結挑出來,單獨展示,可以按時間排序或按重要性排序。oneriot比較擅長這一點,如搜尋chile。熱門鏈結的甄選一般都是依據twitter等微部落格訊息的鏈結分享次數。
語義分析:
除了oneriot外,下面再舉兩個實時分析的real time search engine**:
ubervu自稱是real-time social media analytics,頗有一些功能。
1、這樣確實能夠把關聯資訊中的噪音去除,並且讓相對更重要的資訊排在最前面。和oneriot是一樣的。
2、它還可以在每乙個story中進**感趨勢分析,但需要付費成為會員才可以檢視。估計是計算整體趨勢,個人認為這種統計方式很不靠譜。我一般都強調針對「錨」計算情感趨勢,否則無的放矢,易於失真。
3、它可以給出關聯資訊中不同social sites占多大比例,並針對不同sites畫出不同的提及次數趨勢曲線。
意義不大。但也算是一種觀察維度。
ellerdale trends處理的資料是海量的,twitter、wikipedia、還有許多各種型別的資料來源。ellerdale宣稱擅長快速索引high-volume data feeds,其中乙個資料來源就是twitter的firehose。為此他們開發了乙個容錯的分布式資料庫。
它不僅僅是搜尋引擎,它的語義引擎建立了乙個話題資料庫(它能檢測到哪些是topic,它甚至有這樣的topic:united states senate 和 united states presidential election 2008),並把topic劃分為people、sports、films、politics等分類。
它和ubervu一樣,都能提供up-to-the-second的分析能力(即基於搜尋資料之上的實時分析),幾乎沒有滯後。
你會發現它和ubervu都有乙個共同的目標:試圖更快更好地理解the information and opinions that people are sharing。
對於乙個機器自動檢測出來的topic,比如jessica alba,將進入topics分類列表,它的頁面會依次列出:
live trending會列出某個領域的top ten人物,每乙個排名都會列出三個topic,如films的。
每個topic右側都會列出乙個數字,如:3,647 mph,貌似是指每小時有多少條關聯articles或messages。
daylife的connection engine,如伍茲,如johnny depp;
evri,如史蒂夫賈伯斯,如ipad。
鄭昀@玩聚rt 北京報道
rww的《beyond twitter search: semantic analysis of the real-time web》;
kosmix的《web 3.0 and semantic search》;
鄭昀的《[語義]情感分析方向近況·0908》。
對大資料進行實時分析
大資料分析 bda 包括大資料的採集 儲存 分析 展示。而其中分析是bda的關鍵。說到分析,可以分為歷史分析和實時分析。上次我們著重提過了歷史分析,尤其是互動式歷史分析,當然還有批處理式的歷史分析。這次,我們回過頭來再談談實時分析,包括流處理 cep,等等。說到cep,複雜事件處理 complex ...
對大資料進行實時分析
大資料分析 bda 包括大資料的採集 儲存 分析 展示。而其中分析是bda的關鍵。說到分析,可以分為歷史分析和實時分析。上次我們著重提過了歷史分析,尤其是互動式歷史分析,當然還有批處理式的歷史分析。這次,我們回過頭來再談談實時分析,包括流處理 cep,等等。說到cep,複雜事件處理 complex ...
資料實時分析平台 Heron
twitter發布了新開發的資料實時分析平台heron,以下為官方文件摘譯 我們每天在twitter上處理著數十億的事件。正如你猜測的那樣,實時分析這些事件是乙個巨大的挑戰。目前,我們主要的分析平台是開源的分布式流計算系統storm。但是隨著twitter資料規模變大和多樣化,我們的需求已經發生了改...