百度蜘蛛其獨特的爬行研究

2022-10-05 16:54:14 字數 982 閱讀 9771

前段時間seowhy開啟未登陸使用者禁止訪問論壇的許可權,讓我想到的是,如果使用者未登陸不能檢視帖子,那百度蜘蛛能否索引到內容呢,我簡單的理解為百度蜘蛛的爬行其實就是順著**中的錨文字鏈結爬行,然後形成一張大網,但如果論壇禁止未登陸使用者訪問,那麼蜘蛛爬行的鏈結就是死鏈,就抓取不到內容,發帖就沒有效果,其實我的想法是錯誤的,百度蜘蛛其獨特的爬行機制不是我們想象的那麼簡單。

前日(10月22日),我修改公司**的資料庫,而後測試發布了一篇以「啊啊」為標題、內容的資訊,前台並沒有生成頁面,也就是說這篇文章只有資料庫中存在,前台沒有它的一點資訊(因為我有資料庫潔癖,為了不讓文章id錯亂,想著不用刪除,等第二天更新文章修改掉就行,反正也沒生成頁面),第二天(10月23日),我把這條測試文章修改了,又發不了一篇新的文章,等待收錄檢視快照是這樣的。

修改的那篇文章是22日的快照,新發布的正常,22日時是「啊啊」的內容,但點選百度快照進去發現是新的內容,讓我又想到,難道百度收錄文章的快照與文章更新的時間有關係?於是,今天(10月24日)我又更程式設計客棧新了兩篇文章,然後進資料庫把一片文章的發布時間改為昨天,程式設計客棧等待收錄。

同一時間發布的兩篇文章變成了上面的收錄展示形式,可見22日發布的那篇文章其實當天就收錄了,只是蜘蛛可能知道內容不是使用者要發布的所以一直沒放出,23日修改內容後,前台更新,蜘蛛順著鏈結爬行到這個**知道內容是真正內容了,就替換了22日的收錄並放不來,但快照沒有修改,至於今天發布的兩偏文章展示不一樣,都只是暫時的,你明天檢視,都會變成24日快照,沒有什麼不同,只不過今日檢視乙個顯示詳細收錄時間,乙個顯示當天。

從上面的分析可以看出,百度蜘蛛爬行有時是不按我們的常規思考進行程式設計客棧的,它會通過各種方法進入你的資料庫,抓取內容,而非與**前台的種種限制能阻擋,除非你用robots檔案來限制,seowhy雖遮蔽未登陸使用者訪問,但其實百度蜘蛛是可以抓取到內容的,因為它與我們使用者的訪問方法不一樣。至於文章的發布時間,一定程度上會影響文章收錄的快照,但不是絕對。

本文標題: 百度蜘蛛其獨特的爬行研究

本文位址: /news/seo/71374.html

百度蜘蛛爬行日誌分析

一名合格的seoer在做 優化的時候,不僅僅是要做 優化的一些事,我們還需要分析我們的 分析就包括一些使用者訪問的資訊資料的分析還有就是我們 的日誌進行分析。日誌記錄了搜尋引擎對我們 的訪問情況。我們可以通過 日誌來了解搜尋引擎是否喜歡我們的 下面就給大家介紹下 日誌該怎麼進行分析呢?日誌怎麼分析?...

百度蜘蛛爬行IIS返回200 0 64終極合理解釋

做 之初就在程式設計驛站論壇發現有人說關於蜘蛛爬行iis返回200 0 64資訊的相關文章,當時對這個根本不懂,所以沒有去具體了解,直到08年底我才開對這個64有點想知道的慾望,所以也在網上找了不少這方面的文章來看,自己也一直分析其中的奧妙程式設計客棧,截止11年6月22日凌晨4點左右,終於有了自己...

百度蜘蛛工作表

大家都知道整潔簡單明瞭的 有利於蜘蛛來抓取,但是大家知道蜘蛛的工資表嗎 星期一 8 10 星期二 加油吧 星期三 1 00 4 00 這天也是整個星期最動盪的一天,是讓人又喜又惱的日子,可能你的 快照回退得很遠,可能你的排名公升的很高,不過這天不能決定整個星期,主要在星期四。週三會有一次小更新,無論...