網頁去重是有必要而且有好處的, 首先, 相似的網頁肯定沒有意思, 應該提高使用者的體驗,所以應該把相似的網頁去重後顯示, 或者聚合後顯示. 其次, 如果某些網頁相似的很多, 說明其中內容(如果是非人為惡意製造的話)應該是最近比較熱門的內容, 應該優先展示, 還有, 相似網頁去重可以節省索引空間.
所謂的網頁重複可以分為以下幾個維度去看待, 第一, 核心內容重複, 第二, 布局重複.
其中, 核心內容重複是最關鍵的. 我們應該去發掘其核心內容是否重複.
而網頁去重, 應該說, 有非常多的手段. 但是都有幾個普遍的特點, 1.能夠相對精準的計算相似度, 2.步驟不要太複雜繁瑣,相對簡單, 從而實現高效的計算. 1和2這兩個要求其實是矛盾的, 所以需要乙個平衡.
而去重演算法, 核心思路都是提取特徵,然後進行計算. 這其中用到的大量專業的知識, 我就不再次深究了, 以後有機會慢慢研究其中乙個.
搜尋引擎手記(三)之網頁的去重
015 年4月1日 星期二 晴 南風 今天是愚人節,我們給同事過愚人節,爬蟲也讓我們技術部過了愚人節。通過對抓取資料的分析,發現有20 的資料都是重複資料。開會討論,原來有兩個問題,乙個爬蟲引擎有重大bug 另外乙個問題,竟然對網頁沒有做去重處理。啊!my god!通過和群裡進行技術交流,大概明白了...
搜尋引擎如何去抓取網頁
搜尋引擎看似簡單的抓取 入庫 查詢工作,但其中各個環節暗含的演算法卻十分複雜。搜尋引擎抓取頁面工作靠蜘蛛 spider 來完成,抓取動作很容易實現,但是抓取哪些頁面,優先抓取哪些頁面卻需要演算法來決定,下面介紹幾個抓取演算法 1 寬度優先抓取策略 我們都知道,大部分 都是按照樹狀圖來完成頁面分布的,...
齊寧 搜尋引擎知識 網頁查重技術
對於搜尋引擎來說,重複的網頁內容是非常有害的。重複網頁的存在意味著這些網頁就要被搜尋引擎多處理一次。更有害的是搜尋引擎的索引製作中可能會在索引庫里索引兩份相同的網頁。當有人查詢時,在搜尋結果中就會出現重複的網頁鏈結。所以無論是從搜尋體驗還是系統效率檢索質量來說這些重負網頁都是有害處的。網頁查重技術起...