實時搜尋之微博(百度技術沙龍開放空間環境討論主題)

2022-02-11 11:18:12 字數 532 閱讀 3230

實時搜尋之微博

openspace(開放空間)環節,我所在組討論了「實時搜尋之微博」,非常榮幸我這次被選為組長上台給大家介紹了下,為了方便其他人,我就把討論的結果記錄下來了。

要構建乙個基於微博的實時搜尋,我們就必須選取一定的微博內容作為我們的基礎。我們分為了三種型別:全網、站內,特殊。基於內容我們分為:微博內容,人和人的關係

還有就是人和人的關係的獲取可以通過follow和被follow的list頁面獲取。

對於獲取到了資料的後續處理步驟:

1.過濾處理,去除無用資訊,spam資訊,重複資訊。

3.人的處理,我們覺得搜尋人出來,應該是乙個圖,乙個關係圖,像乙個拓撲圖,星狀圖類似的。或者搜尋乙個人,比如「李開復」,可以顯示出我可以通過那些最近的關係找到他。

實時索引處理

最新版本的sphinx也已經支援實時索引,有興趣的朋友可以嘗試下,這也說明實時搜尋正成為趨勢。

附說明:

百度技術開放日見聞

大家知道在大資料應用的環境下,儲存是乙個非常難以解決的問題。傳統儲存的解決方案無法滿足大規模資料 非結構化資料儲存的問題。傳統的資料庫 檔案系統無法滿足需求,一方面無法支援大規模資料儲存,不能很好的做到 scale out 另一方面大資料環境下的 workload 和傳統儲存面臨的環境不太一樣。傳統...

百度搜尋開放平台或許是百度的Sitelink

說到sitelink業內人第一反映肯定是google sitelink。同時也有很多人在問,為什麼沒有類似於,google的sitelink呢?是有意不製造程式設計客棧還是沒技術?我想技術上肯定不是問題。今天乙個偶然的機會讓我看到了,類似於google sitelink現象的sitelink。就在剛...

第四十期百度技術沙龍筆記整理

本期的技術沙龍主題內容是lbs技術,雖然lbs應用最近這兩年在業內炒得風生水起,但是我感覺離廣泛應用好像還是有一定距離。陌陌cto主要講了兩個問題 乙個是國內不同座標系的位置偏移,其中尤以國測座標系的隨機偏移為甚,他們採用自己取樣總結規律的方式對這個偏移進行糾正.第二個問題是快速空間檢索技術,這方面...