coursera課程 text retrieval and search engine 第五周 推薦。
對於vsm(vector space model)來說,想要提高查詢的準確度,需要把查詢向量做乙個調整,跳到某個位置以提高精度,rocchio即把向量移到所有向量的中心
||取模代表向量的個數,另外經過移動之後,會有很多原來是0的變成有資料,通常採用的措施是保留高權重的它可以用在 relevance feedback和persudo feedback【relevance的beta要大於persudo】;在使用的時候注意不要過度依賴,還是要以原始的查詢為主,畢竟反饋只是乙個小的樣本
kl作為反饋運算來講,具體操作可以是:首先提供乙個預估要查詢的文件集,以及查詢的關鍵字,分別計算出文件和查詢的向量。計算出二者的距離【基本和vsm一致】,通過這樣的方式,會得到乙個反饋的集合。這裡的關鍵在於從反饋集合中提取出乙個查詢向量,通過如圖所示的方式新增到查詢向量中去【作為反饋】,從而提供更好的查詢結果
所有的反饋結果集合都會來自於反饋模型,但是通過詞頻分析來說,排在最前面的一般都是常用的字段集合【the 等】,而這些加入反饋是非常不恰當的。 通過加入另外的乙個集合【背景文件】,混合兩個模型,並通過概率來選擇哪個集合的結果,這個時候,所有的反饋文件集合由混合模型來決定,那麼對於在背景文件中很少的詞頻,但是在反饋文件中很頻繁的,必定是**於反饋文件集合,背景文件集合本身通過給the等詞新增很低的頻率,那麼就可以篩選出反饋文集總過高的通用詞
topic words代表反饋模型,假設有乙個源頭來控制是取背景字段還是反饋模型的字段,其選擇概率是lamda。這樣做到可以控制到底是選擇背景文集作為 反饋還是反饋模型。
NoSql 和 搜尋引擎
非關係型資料庫和關係型資料庫區別,優勢比較?非關係型資料庫的優勢 效能nosql是基於鍵值對的,可以想象成表中的主鍵和值的對應關係,而且不需要經過sql層的解析,所以效能非常高。可擴充套件性同樣也是因為基於鍵值對,資料之間沒有耦合性,所以非常容易水平擴充套件。關係型資料庫的優勢 複雜查詢可以用sql...
lycos搜尋引擎 常用的搜尋引擎都有哪些特點?
1 基於字詞結合的資訊處理方式,巧妙解決了中文資訊的理解問題,極大地提高了搜尋的準確性。2 智慧型相關度演算法。採用了基於內容和基於超鏈分析相結合的方法進行相關度評價,能夠客觀分析網頁所包含的資訊,從而最大限度保證了檢索結果相關性。4 智慧型性 可擴充套件的搜尋技術保證最快最多的收集網際網路資訊。擁...
搜尋引擎中的爬蟲和倒排索引技術
我書讀得少,你不要騙我。這可能是最適合我們的一句話了。昨晚跟以前的部長祥仔爺聊天,得知他現在在做搜尋引擎的優化,在那家公司工作,他便跟我說起他的專業知識。但是由於我書讀得太少了,很多專業術語都聽不懂,連爬蟲這個詞語我都聽得一愣一愣的,還好我記得爬蟲是搜尋引擎必備的。今天在看自動機的書順帶查了一下。網...