鄭昀 20090830
人,尤其是活躍的網際網路使用者,都會在網際網路上留下很多碎片,這些碎片也許是他自己產生的,也許是來自於新聞**,也許是來自他的網際網路好友。這些碎片之間,通常會有某種聯絡。
自動收集這些碎片,可以從中拼湊出乙個關於這個人的檢視。理論上,可以自動建立乙個知識庫,像 wikipedia 一樣。
下面我們列出國際上通行的四個模式。
一、基於email位址的使用者資料自動聚合模式
spokeo 可以根據輸入的email位址(比如遍歷你的gmail所有好友),從以下知名或不知名的web2.0服務找到郵箱所對應的使用者幾乎所有公開資料:
amazon、blogger、digg、facebook、flickr、last.fm、linkedin、myspace、stumbleupon、twitter、photobucket、picasa、windows live spaces等等。
我試驗過,在不付費的情況下,還是可以看到一部分gmail好友的常見web2.0服務上的資料,**居多。但老實說,在中國做到這一點不容易,要求使用者始終用乙個email位址註冊各種服務,而且這種資料實際上很難從服務提供商那裡拿到,只能去hack。
二、基於語義分析的實體關聯模式
本模式通常是分析可靠的文字資料,比如新聞資訊,尤其是來自於權威新聞**。
如果文字**不可靠,那就意味著你要做大量的工作去噪了,最常見的就是語法錯誤或者拼寫錯誤。比如中國雅虎人際關係收集的語料,如果還包括論壇或部落格寫手的文章,那麼就會被逼著寫**來矯正大量的語法不通順、成堆的錯別字。
它的主要原理還是收集整理以下資料:
實體名稱專用詞典(人名、地名、組織名);
實體名稱在句子**現時常見的聯接詞(動詞、形容詞、名詞),尤其是描述關係的名詞,比如「誰的女朋友誰」中的「女朋友」,「誰除了老搭檔誰外,」 中的「搭檔」。簡單的做法是尋找兩個實體名前後距離最近的、能表述關係的詞,根據預先設定的詞語權重,決定這句語料要表達的是什麼「關聯」。
再複雜的考慮就是如何解決「重名」,比如叫李偉或王偉的人太多了。
但說到底,這種模式還是通過實體識別和模式匹配,找到公開的權威資料中實體之間的關聯,通過統計以及後期加工,得到的乙個人際關係知識庫。
中國雅虎的人際關係就是這麼乙個產品,「劉德華_雅虎人物搜尋 」和「劉德華的人際網 」檢視。微軟亞洲研究院的人立方 亦如是,「陳·希·同和*** 」檢視。
evri 最開始面世時,不單單能夠看到乙個人和其他人之間的關聯遠近和關聯資訊,還可以按照人與人之間的動作做查詢,比如你可以查詢都有誰讚揚過mj,查詢obama都批評過哪些機構,或者obama對希拉莉·柯林頓都有過哪些情感表述。這都表明 evri 對實體之間的語義處理達到了爐火純青的地步。你可以進一步閱讀我的文章《情感分析方向近況·0908 》了解 evri 。 「mj 」檢視。
google 在前幾年推出的 「in quotes」 能夠自動羅列你所選擇的兩個政治人物對某些關鍵問題的表述,比如預設的obama和mccain。這個可能稍微簡單些,因為它並不需要分析政治人物之間的關聯,也不需要分析人和物之間的關聯到底是什麼,只需要優選羅列即可。
三、基於語義分析的特徵抽取模式
本模式的主要目的是分析給定使用者名稱的行為特徵,試圖用某些預置的模式去涵蓋或描述該使用者。
基於此模式所得到的結果,可以幫助某些系統更好地理解使用者,從而可以做到個性化推送。
這個模式更像是自然語言處理中的「自動分類」之「軟分類」。
mit出品的 ,它利用自然語言處理技術,收集足夠多的資料,期望成為乙個online persona creator。
比如你輸入乙個人名,它能盡可能地找到線上資料,以便特徵化這個人,最終生成這樣的一張圖:
personas 計算過程的動畫展示比結果更有意思,
畢竟靠語義技術尋找人的網際網路軌跡和碎片並拼接出人的特徵,出錯率太高,即使是對名人都如此,何況普通人。
personas 計算完畢後,你很難估計這個結果到底不靠譜程度有多大,只能通過看中間計算過程顯示的那一篇篇語料來估摸。
有興趣的人可以在 personasweb.html 輸入isaac mao,shizhao,zuola等名id測試。
四、基於social關係的連線分析模式
這個模式的初級階段,其實有無數的服務都曾做過,也就是根據乙個social media服務的好友關係,繪製出乙個大節點圖,畫出幾乎所有人之間的關係。
twitter上的這種服務有:
實際上利用social graph 的資料也可以繪製出類似的連線圖。
以上都是盡可能利用公開的、權威(或可靠)資料,來視覺化或結構化乙個人的線上資料。
鄭昀(follow zhengyun) 北京報道 20090830
分析人的網路軌跡和碎片之四大模式
鄭昀 20090830 人,尤其是活躍的網際網路使用者,都會在網際網路上留下很多碎片,這些碎片也許是他自己產生的,也許是來自於新聞 也許是來自他的網際網路好友。這些碎片之間,通常會有某種聯絡。自動收集這些碎片,可以從中拼湊出乙個關於這個人的檢視。理論上,可以自動建立乙個知識庫,像 wikipedia...
網路丟包的四大原因和修復方法
路由器 交換機 防火牆 等等 的裝置效能 網路裝置上的軟體問題 bug 硬體或網路纜線的毛病引用 mike hurley 譯 斷橋bian 網路效能問題是乙個老生長談的問題。網路是應用和資料的基礎。所以一旦這一層出現問題,那麼將會影響上層應用的體驗。造成網路效能問題的原因有很多種,但是在這篇文章中我...
網路丟包的四大原因和修復方法
網路鏈結阻塞 資料在網路傳輸過程中會經過很多裝置和網路鏈結,只要其中乙個網路鏈結在資料到達之前已經滿負載了,那麼資料將會在這裡阻塞一段時間。如果說網路裝置非常落後,那麼網路鏈結就沒有足夠的等待空間給新資料,它唯一能做的就是將資訊丟棄。裝置效能 路由器 防火牆 交換機 在頻寬充足的情況下,如果你的路由...