蜘蛛爬行策略或網路抓取

這些處理被稱為網路抓取或者蜘蛛爬行。很多站點，尤其是搜尋引擎，都使用爬蟲提供最新的資料，它主要用於提供它訪問過頁面的乙個副本，然後，搜尋引擎就可以對得到的頁面進行索引，以提供快速的訪問。

蜘蛛也可以在web上用來自動執行一些任務，例如檢查連線，確認html**；也可以用來抓取網頁上某種特定型別資訊，例如抓取電子郵件位址（通常用於垃圾郵件）。

乙個網路蜘蛛就是一種機械人，或者軟體**。大體上，它從一組要訪問的url鏈結開始，可以稱這些url為種子。爬蟲訪問這些鏈結，它辨認出這些頁面的所有超連結，然後新增到這個url列表，可以稱作檢索前沿。這些url按照一定的策略反覆訪問。

爬行策略

下述的三種網路特徵，造成了設計網頁爬蟲抓取策略變得很難：

它巨大的資料量；

它快速地更新頻率；

動態頁面的產生

它們三個特徵一起產生了很多種類的爬蟲抓取鏈結。

最近新增的很多頁面都是通過伺服器端指令碼語言產生的，無窮的引數組合也增加了爬蟲抓取的難度，只有一小部分這種組合會返回一些獨特的內容。例如，乙個很小**儲存庫僅僅通過get方式可能提供就給使用者三種操作方式。如果這裡存著四種分類方式，三種縮圖方式，兩種檔案格式，和乙個禁止使用者提供內容的選項，那麼，同樣的內容就可以通過48種方式訪問。這種數學組合給網路爬蟲創造的難處就是，為了獲取不同的內容，他們必須篩選無窮僅有微小變化的組合。

正如愛德華等人所說的：「用於檢索的頻寬不是無限的，也不是免費的；所以，如果引入衡量爬蟲抓取質量或者新鮮度的有效指標的話，不但伸縮性，連有效性都將變得十分必要」（愛德華等人，2023年）。乙個爬蟲就必須小心地選擇下一步要訪問什麼頁面。網頁爬蟲的行為通常是四種策略組合的結果。

重新訪問策略，決定什麼時候檢查頁面的更新變化；

平衡禮貌策略，指出怎樣避免站點超載；

並行策略，指出怎麼協同達到分布式抓取的效果；

蜘蛛爬行策略或網路抓取

WordPress蜘蛛爬行記錄教程

如何設定apache日誌記錄蜘蛛爬行

百度蜘蛛爬行日誌分析

蜘蛛爬行策略或網路抓取

WordPress蜘蛛爬行記錄教程

如何設定apache日誌記錄蜘蛛爬行

百度蜘蛛爬行日誌分析

相關推薦