Robots協議基礎

前言

寫這個robots協議的文章呢是因為我今天在攻防世界上做題的時候碰到一道關於robots協議的題目，當然這道題也是比較簡單，我們先簡單的寫乙個解題思路然後介紹robots協議。

題目

我們點開這個**之後發現是乙個空白頁

我們根據題目的提示在url中輸入robots.txt(為什麼要輸入robots.txt，這個與robots協議有關，後面會說明）我們發現頁面發生了變化。

robots協議也叫robots.txt（統一小寫）是一種存放於**根目錄下的ascii編碼的文字檔案，它通常告訴網路搜尋引擎的漫遊器（又稱網路蜘蛛），此**中的哪些內容是不應被搜尋引擎的漫遊器獲取的，哪些是可以被漫遊器獲取的。

作用：**告知網路爬蟲哪些頁面可以爬取，哪些不能爬取

基本協議語法：

# 注釋 * 代表所有 ./代表根目錄 user-agent: * # 代表的是那些爬蟲 disallow: / # 代表不允許爬蟲訪問的目錄

例：京東的robots協議

可以看到京東對爬蟲的限制：

# 對於任何的網路爬蟲**，遵守如下協議 user-agent: * disallow: /?* disallow: /pop/*.html disallow: /pinpai/*.html?* # 以下四個網路爬蟲不允許爬取任何資源 user-agent: etaospider disallow: / user-agent: huihuispider disallow: / user-agent: gwdangspider disallow: / user-agent: wochachaspider disallow: /

robots.txt檔案放置在**根目錄下。舉例來說，當spider訪問乙個**時，首先會檢查該**中是否存在robots.txt這個檔案，如果 spider找到這個檔案，它就會根據這個檔案的內容，來確定它訪問許可權的範圍。（並不是所有的**都有robots協議)

網路爬蟲：自動或人工識別robots.txt，再進行內容爬取

約束性：robots協議是建議但並非約束性，網路爬蟲可以不遵守，但存在法律風險。

robots協議是**出於安全和隱私考慮，防止搜尋引擎抓取敏感資訊而設定的。搜尋引擎的原理是通過一種爬蟲spider程式，自動蒐集網際網路上的網頁並獲取相關資訊。而鑑於網路安全與隱私的考慮，每個**都會設定自己的robots協議，來明示搜尋引擎，哪些內容是願意和允許被搜尋引擎收錄的，哪些則不允許。搜尋引擎則會按照robots協議給予的許可權進行抓取。

****

京東**

2023年10月25日，京東**正式將一淘網的搜尋爬蟲遮蔽，以防止一淘網對其的內容抓取。

Robots協議基礎

robots 協議介紹

爬蟲協議robots

robots 協議介紹

Robots協議基礎

robots 協議介紹

爬蟲協議robots

robots 協議介紹

相關推薦