爬蟲協議robots

2021-09-07 13:03:59 字數 1622 閱讀 8851

robots協議(也稱為爬蟲協議、機械人協議等)全稱是「網路爬蟲排除標準」(robots exclusion protocol),**通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。本文將詳細介紹爬蟲協議robots

當乙個搜尋蜘蛛訪問乙個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜尋機械人就會按照該檔案中的內容來確定訪問的範圍;如果該檔案不存在,所有的搜尋蜘蛛將能夠訪問**上所有沒有被口令保護的頁面

【原則】

robots協議是國際網際網路界通行的道德規範,基於以下原則建立:

1、搜尋技術應服務於人類,同時尊重資訊提供者的意願,並維護其隱私權;

[注意]robots.txt必須放置在乙個站點的根目錄下,而且檔名必須全部小寫

【user-agent】

下面**中*代表的所有的搜尋引擎種類,*是乙個萬用字元,表示所有的搜尋機械人

下面**表示禁止爬尋admin目錄下面的目錄

disallow: /admin/

下面**表示禁止抓取網頁所有的.jpg格式的

下面**表示禁止爬取ab資料夾下面的adc.html檔案

disallow:/ab/adc.html

disallow: /*

?*

下面**表示禁止訪問**中所有頁面

disallow: /

【allow】

下面**表示允許訪問以".html"為字尾的url

allow: .html$

下面**表示允許爬尋tmp的整個目錄

allow: /tmp

下面**表示允許所有的robot訪問**所有的頁面

user-agent: *allow: /

下面**表示禁止所有搜尋引擎訪問**的任何部分

下面**表示禁止所有搜尋引擎訪問**的cgi-bin、tmp、~joe這三個目錄下的檔案

user-agent: *disallow: /cgi-bin/disallow: /tmp/disallow: /~joe/

【誤區一】:**上的所有檔案都需要蜘蛛抓取,那就沒必要在新增robots.txt檔案了。反正如果該檔案不存在,所有的搜尋蜘蛛將預設能夠訪問**上所有沒有被口令保護的頁面

每當使用者試圖訪問某個不存在的url時,伺服器都會在日誌中記錄404錯誤(無法找到檔案)。每當搜尋蜘蛛來尋找並不存在的robots.txt檔案時,伺服器也將在日誌中記錄一條404錯誤,所以應該在**中新增乙個robots.txt

**中的程式指令碼、樣式表等檔案即使被蜘蛛收錄,也不會增加**的收錄率,還只會浪費伺服器資源。因此必須在robots.txt檔案裡設定不要讓搜尋蜘蛛索引這些檔案

爬蟲的Robots協議

開發者對於網路爬蟲的規範的公告,你可以不遵守可能存在法律風險,但盡量去遵守 robots協議 在網頁的根目錄 robots.txt 如www.baidu.com robots.txt robots協議的基本語法 代表所有,代表根目錄 user agent user agent代表 allow 代表執...

Python 爬蟲 Robots協議

2017 07 25 21 08 16 一 網路爬蟲的規模 二 網路爬蟲的限制 審查 判斷user agent進行限制 檢查來訪http協議頭的user agent域,只響應瀏覽器或友好爬蟲的訪問 發布公告 robots協議 告知所有爬蟲 的爬取策略,要求爬蟲遵守 三 robots 協議 如果 不提...

Python 爬蟲流程及robots協議介紹

爬蟲大致分為了四個階段 確定目標 我們想要爬取的網頁 資料採集 已經爬取到的html資料 資料提取 從html中提取我們想要的資料 資料儲存 將提取出來的資料儲存在資料庫,儲存成json檔案等 robots協議 用簡單直接的txt格式文字方式告訴對應的爬蟲被允許的許可權,也就是說robots.txt...