對於真假百度蜘蛛,相信seo及站長們已經有明確的手段去辨別了。百度也在官方通告了如何去判別偽裝成百度蜘蛛的抓取,詳情請參考這篇文章:
1.占用**頻寬,導致**流量上公升,增加額外開銷
2.在有限頻寬的前提下,阻礙了正常蜘蛛的抓取
3.誤導了我們在對**開展seo工作時的思路
4.部分偽裝成假蜘蛛的採集工具剽竊了我們的工作
我們看到,網上有很多人在分享如何「捉住」假蜘蛛的文章,但這些文章只是千篇一律的描述了「捉住」假蜘蛛的過程及操作方法。卻沒有分享從如何真正的判別蜘蛛的真偽。
作者本人最近在對乙個電商**進行seo優化時,就碰到了這樣乙個案例,險些導致將真蜘蛛錯當假蜘蛛來處理。
一、發現「假蜘蛛」
seo優化要依靠大量的分析和資料來實現,其中日誌分析是重中之重,在日誌中我們可以看到很多平時統計工具無法看到的資料和事實。
每週三我都要對該電子商務**進行周日誌的分析,以便來統計上一周的優化效果,在本週進行對**日誌進行分析檢視時,我發現了幾個不屬於認識中程式設計客棧的「蜘蛛ip」,如圖:
我們知道,百度蜘蛛一般來自於202.181.108.* 和123.125.71.* 這兩個ip段(順便科普一下,這兩個ip段的百度蜘蛛沒有所謂高權重和降權之分)。顯然這三個ip在「常識」中,不屬於百度蜘蛛所屬的ip段。
為了確保不誤殺百度蜘蛛,筆者用nslookup ip命令反解了此ip,得到以下資訊:
這個時候,基本已經可以確定該ip不屬於百度蜘蛛的ip段,是乙個「假蜘蛛」,我們需要遮蔽該ip釋放那些被占用的頻寬。
二,誤會「假蜘蛛」
就在要對以上提到的三個ip進行遮蔽的時候,筆者突然想到,這個電商**在上週通知我他們要使用安全寶服務,需要將dns解析到安全寶的伺服器上,而安全寶則會根據使用者的訪問情況,選擇距離最近的乙個節點進行cdn加速。
在我之前的例行seo檢查中,發現**ip被解析到了陝西的乙個ip上,而這個**ip和這次我從**日誌中發現的三個「假蜘蛛」ip屬於同一ip段。
為了驗證這個推測,我又重新仔細檢視了**日誌,發現谷歌蜘蛛和搜狗蜘蛛也來自於之前三個ip(之前對**日誌進行了拆分,只檢視百度的情況,因為**是針對百度做seo的)。
這下子總算清楚了,這些所屬ip的蜘蛛不是假蜘蛛,而是貨真價實的百度蜘蛛、谷歌蜘蛛和其他搜尋引擎的蜘蛛。只不過因為他們通過了一次cdn節點,所以造成了程式設計客棧他們的**ip是一致的。
三,虛擬主機如何產生「假蜘蛛」
百度蜘蛛工作表
大家都知道整潔簡單明瞭的 有利於蜘蛛來抓取,但是大家知道蜘蛛的工資表嗎 星期一 8 10 星期二 加油吧 星期三 1 00 4 00 這天也是整個星期最動盪的一天,是讓人又喜又惱的日子,可能你的 快照回退得很遠,可能你的排名公升的很高,不過這天不能決定整個星期,主要在星期四。週三會有一次小更新,無論...
常見的百度蜘蛛IP
123.125.68.這個蜘蛛經常來,別的來的少,表示 可能要進入沙盒了,或被者降權。220.181.68.每天這個ip 段只增不減很有可能進沙盒或k站。121.14.89.這個ip段作為度過新站考察期。203.208.60.這個ip段出現在新站及站點有不正常現象後。210.72.225.這個ip段...
百度蜘蛛爬行日誌分析
一名合格的seoer在做 優化的時候,不僅僅是要做 優化的一些事,我們還需要分析我們的 分析就包括一些使用者訪問的資訊資料的分析還有就是我們 的日誌進行分析。日誌記錄了搜尋引擎對我們 的訪問情況。我們可以通過 日誌來了解搜尋引擎是否喜歡我們的 下面就給大家介紹下 日誌該怎麼進行分析呢?日誌怎麼分析?...