實時搜尋之微博
openspace(開放空間)環節,我所在組討論了「實時搜尋之微博」,非常榮幸我這次被選為組長上台給大家介紹了下,為了方便其他人,我就把討論的結果記錄下來了。
要構建乙個基於微博的實時搜尋,我們就必須選取一定的微博內容作為我們的基礎。我們分為了三種型別:全網、站內,特殊。基於內容我們分為:微博內容,人和人的關係。
還有就是人和人的關係的獲取可以通過follow和被follow的list頁面獲取。
對於獲取到了資料的後續處理步驟:
1.過濾處理,去除無用資訊,spam資訊,重複資訊。
3.人的處理,我們覺得搜尋人出來,應該是乙個圖,乙個關係圖,像乙個拓撲圖,星狀圖類似的。或者搜尋乙個人,比如「李開復」,可以顯示出我可以通過那些最近的關係找到他。
實時索引處理:
最新版本的sphinx也已經支援實時索引,有興趣的朋友可以嘗試下,這也說明實時搜尋正成為趨勢。
附說明:
百度技術開放日見聞
大家知道在大資料應用的環境下,儲存是乙個非常難以解決的問題。傳統儲存的解決方案無法滿足大規模資料 非結構化資料儲存的問題。傳統的資料庫 檔案系統無法滿足需求,一方面無法支援大規模資料儲存,不能很好的做到 scale out 另一方面大資料環境下的 workload 和傳統儲存面臨的環境不太一樣。傳統...
百度搜尋開放平台或許是百度的Sitelink
說到sitelink業內人第一反映肯定是google sitelink。同時也有很多人在問,為什麼沒有類似於,google的sitelink呢?是有意不製造程式設計客棧還是沒技術?我想技術上肯定不是問題。今天乙個偶然的機會讓我看到了,類似於google sitelink現象的sitelink。就在剛...
第四十期百度技術沙龍筆記整理
本期的技術沙龍主題內容是lbs技術,雖然lbs應用最近這兩年在業內炒得風生水起,但是我感覺離廣泛應用好像還是有一定距離。陌陌cto主要講了兩個問題 乙個是國內不同座標系的位置偏移,其中尤以國測座標系的隨機偏移為甚,他們採用自己取樣總結規律的方式對這個偏移進行糾正.第二個問題是快速空間檢索技術,這方面...