假百度蜘蛛？CDN及虛擬主機使用者須慎重辨明

對於真假百度蜘蛛，相信seo及站長們已經有明確的手段去辨別了。百度也在官方通告了如何去判別偽裝成百度蜘蛛的抓取，詳情請參考這篇文章：

1.占用**頻寬，導致**流量上公升，增加額外開銷

2.在有限頻寬的前提下，阻礙了正常蜘蛛的抓取

3.誤導了我們在對**開展seo工作時的思路

4.部分偽裝成假蜘蛛的採集工具剽竊了我們的工作

我們看到，網上有很多人在分享如何「捉住」假蜘蛛的文章，但這些文章只是千篇一律的描述了「捉住」假蜘蛛的過程及操作方法。卻沒有分享從如何真正的判別蜘蛛的真偽。

作者本人最近在對乙個電商**進行seo優化時，就碰到了這樣乙個案例，險些導致將真蜘蛛錯當假蜘蛛來處理。

一、發現「假蜘蛛」

seo優化要依靠大量的分析和資料來實現，其中日誌分析是重中之重，在日誌中我們可以看到很多平時統計工具無法看到的資料和事實。

每週三我都要對該電子商務**進行周日誌的分析，以便來統計上一周的優化效果，在本週進行對**日誌進行分析檢視時，我發現了幾個不屬於認識中程式設計客棧的「蜘蛛ip」，如圖：

我們知道，百度蜘蛛一般來自於202.181.108.* 和123.125.71.* 這兩個ip段（順便科普一下，這兩個ip段的百度蜘蛛沒有所謂高權重和降權之分）。顯然這三個ip在「常識」中，不屬於百度蜘蛛所屬的ip段。

為了確保不誤殺百度蜘蛛，筆者用nslookup ip命令反解了此ip，得到以下資訊：

這個時候，基本已經可以確定該ip不屬於百度蜘蛛的ip段，是乙個「假蜘蛛」，我們需要遮蔽該ip釋放那些被占用的頻寬。

二，誤會「假蜘蛛」

就在要對以上提到的三個ip進行遮蔽的時候，筆者突然想到，這個電商**在上週通知我他們要使用安全寶服務，需要將dns解析到安全寶的伺服器上，而安全寶則會根據使用者的訪問情況，選擇距離最近的乙個節點進行cdn加速。

在我之前的例行seo檢查中，發現**ip被解析到了陝西的乙個ip上，而這個**ip和這次我從**日誌中發現的三個「假蜘蛛」ip屬於同一ip段。

為了驗證這個推測，我又重新仔細檢視了**日誌，發現谷歌蜘蛛和搜狗蜘蛛也來自於之前三個ip（之前對**日誌進行了拆分，只檢視百度的情況，因為**是針對百度做seo的）。

這下子總算清楚了，這些所屬ip的蜘蛛不是假蜘蛛，而是貨真價實的百度蜘蛛、谷歌蜘蛛和其他搜尋引擎的蜘蛛。只不過因為他們通過了一次cdn節點，所以造成了程式設計客棧他們的**ip是一致的。

三，虛擬主機如何產生「假蜘蛛」