站點下的robots

2022-08-19 07:30:18 字數 1125 閱讀 3034

面試某軟,被面試官問道:你做爬蟲。知不知道非常多站點下都有個robots檔案?

答曰:不知。

於是面試官給我演示了一遍~

遂卒。首戰慘敗。

下來查了維基百科。基本了解robots。

比方必應搜尋www.bing.com的根資料夾下有這麼乙個檔案:其內容例如以下:

user-agent: msnbot-media 

disallow: /

allow: /shopping/$

allow: /shopping$

allow: /th?

user-agent: twitterbot

disallow:

user-agent: *

disallow: /account/

disallow: /bfp/search

disallow: /bing-site-safety

disallow: /blogs/search/

disallow: /entities/search

disallow: /fd/

disallow: /history

disallow: /hotels/search

...

這個檔案的作用是。告訴搜尋引擎該網域名稱下那些檔案可以爬取,哪些不行。

以下摘自維基百科:

robots.txt(統一小寫)是一種存放於站點根資料夾下的ascii編碼的文字檔案,它通常告訴網路搜尋引擎的漫遊器(又稱網路蜘蛛),此站點中的哪些內容是不應被搜尋引擎的漫遊器獲取的,哪些是能夠被漫遊器獲取的。由於一些系統中的url是大寫和小寫敏感的,所以robots.txt的檔名稱應統一為小寫。

robots.txt應放置於站點的根資料夾下。假設想單獨定義搜尋引擎的漫遊器訪問子資料夾時的行為。那麼能夠將自定的設定合併到根資料夾下的robots.txt,或者使用robots元資料(metadata,又稱元資料)。

robots.txt協議並非乙個規範。而僅僅是約定俗成的,所以並不能保證站點的隱私。注意robots.txt是用字串比較來確定是否獲取url。所以資料夾末尾有與沒有斜槓「/」表示的是不同的url。robots.txt同意使用類似"disallow:

*.gif"這種萬用字元

站點下的robots

面試某軟,被面試官問道 你做爬蟲。知不知道非常多站點下都有個robots檔案?答曰 不知。於是面試官給我演示了一遍 遂卒。首戰慘敗。下來查了維基百科。基本了解robots。比方必應搜尋www.bing.com的根資料夾下有這麼乙個檔案 其內容例如以下 user agent msnbot media ...

爬蟲的Robots協議

開發者對於網路爬蟲的規範的公告,你可以不遵守可能存在法律風險,但盡量去遵守 robots協議 在網頁的根目錄 robots.txt 如www.baidu.com robots.txt robots協議的基本語法 代表所有,代表根目錄 user agent user agent代表 allow 代表執...

robots檔案的Crawl delay是什麼意思

robots.txt檔案設定crawl delay注要原因是蜘蛛程式爬的過快,會給伺服器照成負擔,影響正常的 展示速度。最近檢視部落格大巴 的robots.txt檔案發現乙個以前從沒見到到的設定方式crawl delay 100 部落格大巴robots.txt檔案如下 user agent craw...