今天學習了同事總結的搜尋相關性計算方法,整理如下:
相關性指搜尋query和頁面之間的相關程度,衡量的維度有:文字相關性、權威性、查詢需求滿足。其中權威性要求同等條件下選擇更優質、權威的結果;需求滿足側重了搜尋個性化,同乙個搜尋詞有多種不同含義,搜尋引擎應該能夠分析出使用者的意圖和需求,然後返回適合的結果。
1)term出現的順序和相對位置
2)頁面級別的特徵:主題分析、反鏈anchor分析、頁面型別、頁面質量、站點/頻道的屬性、正文提取/邊框去噪等
3)term級別的特徵:結構特徵及語義(定義詞、上下文關係等)
1)將query中所有term的tf*idf加權相加,
2)向量夾角:query向量和頁面向量之間的相似度
主題匹配度*offset模型:
目標:好結果的召回(包含全部term的網頁,命中同義詞的網頁,主幹命中的網頁)、結果排序
計算: 主題匹配度=cqr*ctr,其中cqr是query與片段的交集佔query的比例, ctr是query和片段的交集佔片段的比例。
offset:term在網頁中的分布情況,用於計算query中的term在網頁中的距離,體現了term的相對位置資訊,
•offset差異計算公式:
sum(|(offset_page(i+1)-ofset_page(i))
-(offset_query(i+1)-offset_query(i))|*tight_ratio(i))
計算文字相關性,term的重要性是不同的,要按照term的重要性做省略重查,query的主幹識別很重要。
除了文字相關性,相關性計算還涉及權威性、使用者需求分析、反作弊、使用者行為分析、資源質量判定、svm模型等(概率檢索模型?)……
------------------------------------------我是分割線——————————————————————————
目前的檢索過程有:leaf計算scorer、booster後,由searchroot的pre_tuner和post_tuner進行調權,放出結果。
scorer是加權和,booster是調權因子,tuner是searchroot對結果進行調整,如pre_tuner過濾掉死鏈、死host、重複的doc等,post_tuner是例如去掉相同摘要的doc等等。
scorer初始化=》search初始化=》doc初始化=》computerscorerinternal=》computersectionscorer。。。=》scorer
searchroot檢索流程:
query=》query_rewriter=》parent=>leaf=>searchroot pre_tuner=>parent=>leaf=>snippet=>post_tuner=>filter=>user....
spearman相關性分析 相關性分析
r語言常用函式 cor 預設結果為矩陣 cor mydat,use method use 缺失值的處理,method 處理方法 cor x,y 可以計算非方形矩陣,x y分別為2個矩陣,相同的行數 cor.test x,y,alternative method x y為檢驗相關性的變數 librar...
統計 相關性與自相關性
相關係數度量指的是兩個不同事件彼此之間的相互影響程度 而自相關係數度量的是同一事件在兩個不同時期之間的相關程度,形象的講就是度量自己過去的行為對自己現在的影響。自相關,也稱 序列相關。是乙個訊號於其自身在不同時間點的互相關。非正式地來說,它就是兩次觀察之間的相似度對它們之間的時間差的函式。它是找出重...
基因相關性
描述 為了獲知基因序列在功能和結構上的相似性,經常需要將幾條不同序列的dna進行比對,以判斷該比對的dna是否具有相關性。現比對兩條長度相同的dna序列。首先定義兩條dna序列相同位置的鹼基為乙個鹼基對,如果乙個鹼基對中的兩個鹼基相同的話,則稱為相同鹼基對。接著計算相同鹼基對佔總鹼基對數量的比例,如...