015
年4月1日
(星期二
)晴 南風
今天是愚人節,我們給同事過愚人節,爬蟲也讓我們技術部過了愚人節。通過對抓取資料的分析,發現有20%的資料都是重複資料。開會討論,原來有兩個問題,乙個爬蟲引擎有重大bug;另外乙個問題,竟然對網頁沒有做去重處理。啊!my god!
通過和群裡進行技術交流,大概明白了解決問題的思路。爬蟲爬下的網頁在通過etl工具抽取到搜尋引擎時候需要對內容進行去重的操作。評價網頁內容重複的問題,大體上分為4種:
1、完全重複 文件內容和布局格式上毫無差別;
2、內容重複 文件內容相同,布局格式不同;
3、布局重複 文件重要的內容相同,布局相同;
4、部分重複 文件重要內容相同,布局格式不同。
我們出現的問題的原因,是因為爬蟲組,只是對內容進行了簡單的md5加密,作為索引。
不專業害死人呀!
我翻了翻網上的資料,網頁去重流程大體如下圖:
去重的演算法還不太複雜。大體上有shingle演算法、supershinge演算法、i-match演算法和simhash演算法。在後面的幾個章節,我會一一娓娓道來。
搜尋引擎 聊一聊網頁去重
網頁去重是有必要而且有好處的,首先,相似的網頁肯定沒有意思,應該提高使用者的體驗,所以應該把相似的網頁去重後顯示,或者聚合後顯示.其次,如果某些網頁相似的很多,說明其中內容 如果是非人為惡意製造的話 應該是最近比較熱門的內容,應該優先展示,還有,相似網頁去重可以節省索引空間.所謂的網頁重複可以分為以...
搜尋引擎如何去抓取網頁
搜尋引擎看似簡單的抓取 入庫 查詢工作,但其中各個環節暗含的演算法卻十分複雜。搜尋引擎抓取頁面工作靠蜘蛛 spider 來完成,抓取動作很容易實現,但是抓取哪些頁面,優先抓取哪些頁面卻需要演算法來決定,下面介紹幾個抓取演算法 1 寬度優先抓取策略 我們都知道,大部分 都是按照樹狀圖來完成頁面分布的,...
搜尋引擎優化的三重境界
古今之成大事業,大學問者,無不經過三種之境界。對於做seo的站長而言,也有三道關要闖。或許這篇文章不像其他經驗分享一樣能夠告訴你具體的方法,因為再好的方法,也是需要自己去探索,去實踐,方能掌握。而這篇文章,正是為了能給予大家啟發,了解s的本質。第一重 昨夜西風凋碧樹,獨上高樓,望盡天涯路 剛開始接觸...