齊寧 搜尋引擎知識 網頁查重技術

2021-04-28 14:12:29 字數 1638 閱讀 8998

對於搜尋引擎來說,重複的網頁內容是非常有害的。重複網頁的存在意味著這些網頁就要被搜尋引擎多處理一次。更有害的是搜尋引擎的索引製作中可能會在索引庫里索引兩份相同的網頁。當有人查詢時,在搜尋結果中就會出現重複的網頁鏈結。所以無論是從搜尋體驗還是系統效率檢索質量來說這些重負網頁都是有害處的。

網頁查重技術起源於複製檢測技術,即判斷乙個檔案內容是否存在抄襲、複製另外乙個或多個檔案的技術。

2023年arizona大學的manber(google現副總裁、工程師)推出了乙個sif工具,尋找相似檔案。2023年stanford大學的brin(sergey brin,google創始人之一)和garcia-molina等人在「數字圖書觀」工程中首次提出文字複製檢測機制cops(copy protection system)系統與相應演算法[sergey brin et al 1995]。之後這種檢測重複技術被應用到搜尋引擎中,基本的核心技術既比較相似。

網頁和簡單的文件不同,網頁的特殊屬性具有內容和格式等標記,因此在內容和格式上的相同相似構成了4種網頁相似的型別。

1、兩個頁面內容格式完全相同。

2、兩個頁面內容相同,但格式不同。

3、兩個頁面部分內容相同並且格式相同。

4、兩個頁面部分重要相同但格式不同。

實現方法:

網頁查重,首先將網頁整理成為乙個具有標題和正文的文件,來方便查重。所以網頁查重又叫「文件查重」。「文件查重」一般被分為三個步驟,一、特徵抽取。二、相似度計算和評價。三、消重。

1.特徵抽取

我們在判斷相似物的時候,一般是才能用不變的特徵進行對比,檔案查重第一步也是進行特徵抽取。也就是將文件內容分解,由若干組成文件的特徵集合表示,這一步是為了方面後面的特徵比較計算相似度。

特徵抽取有很多方法,我們這裡主要說兩種比較經典的演算法,「i-match演算法」、「shingle演算法」。

「i-match演算法」是不依賴於完全的資訊分析,而是使用資料集合的統計特徵來抽取文件的主要特徵,將非主要特徵拋棄。

「shingle演算法」通過抽取多個特徵詞彙,比較兩個特徵集合的相似程度實現文件查重。

2.相似度計算和評價

特徵抽取完畢後,就需要進行特徵對比,因網頁查重第二步就是相似度計算和評價。

i-match演算法的特徵只有乙個,當輸入一篇文件,根據詞彙的idf值(逆文字頻率指數,inverse document frequency縮寫為idf)過濾出一些關鍵特徵,即一篇文章中特別高和特別低頻的詞彙往往不能反應這篇文章的本質。因此通過文件中去掉高頻和低頻詞彙,並且計算出這篇文件的唯一的hash值(hash簡單的說就是把資料值對映為位址。把資料值作為輸入,經計算後即可得到位址值。),那些hash值相同的文件就是重複的。

shingle演算法是抽取多個特徵進行比較,所以處理起來比較複雜一些,比較的方法是完全一致的shingle個數。然後除以兩個文件的shingle總數減去一致的shingle個數,這種方法計算出的數值為「jaccard 係數」,它可以判斷集合的相似度。jaccard 係數的計算方法集合的交集除以集合的並集。

3.消重

對於刪除重複內容,搜尋引擎考慮到眾多收錄因素,所以使用了最簡單的最實用的方法。先被爬蟲抓取的頁面同時很大程度也保證了優先保留原創網頁。

網頁查重工作是系統中不可缺少的,刪除了重複的頁面,所以搜尋引擎的其他環節也會減少很多不必要的麻煩,節省了索引儲存空間、減少了查詢成本、提高了pagerank計算效率。方便了搜尋引擎使用者。

齊寧 搜尋引擎知識 網頁查重技術

對於搜尋引擎來說,重複的網頁內容是非常有害的。重複網頁的存在意味著這些網頁就要被搜尋引擎多處理一次。更有害的是搜尋引擎的索引製作中可能會在索引庫里索引兩份相同的網頁。當有人查詢時,在搜尋結果中就會出現重複的網頁鏈結。所以無論是從搜尋體驗還是系統效率檢索質量來說這些重負網頁都是有害處的。網頁查重程式設...

搜尋引擎基礎知識1 搜尋引擎的技術架構

搜尋引擎按其工作方式主要可分為三種 分別是全文搜尋引擎 full text search engine 目錄索引類搜尋引擎 search index directory 元搜尋引擎 meta search engine 全文搜尋引擎 雖然有搜尋功能,但嚴格意義上不能稱為真正的搜尋引擎,只是按目錄分類...

搜尋引擎 聊一聊網頁去重

網頁去重是有必要而且有好處的,首先,相似的網頁肯定沒有意思,應該提高使用者的體驗,所以應該把相似的網頁去重後顯示,或者聚合後顯示.其次,如果某些網頁相似的很多,說明其中內容 如果是非人為惡意製造的話 應該是最近比較熱門的內容,應該優先展示,還有,相似網頁去重可以節省索引空間.所謂的網頁重複可以分為以...