前言
寫這個robots協議的文章呢是因為我今天在攻防世界上做題的時候碰到一道關於robots協議的題目,當然這道題也是比較簡單,我們先簡單的寫乙個解題思路然後介紹robots協議。
題目
我們點開這個**之後發現是乙個空白頁
我們根據題目的提示在url中輸入robots.txt(為什麼要輸入robots.txt,這個與robots協議有關,後面會說明)我們發現頁面發生了變化。
robots協議也叫robots.txt(統一小寫)是一種存放於**根目錄下的ascii編碼的文字檔案,它通常告訴網路搜尋引擎的漫遊器(又稱網路蜘蛛),此**中的哪些內容是不應被搜尋引擎的漫遊器獲取的,哪些是可以被漫遊器獲取的。
作用:**告知網路爬蟲哪些頁面可以爬取,哪些不能爬取
基本協議語法:
# 注釋
* 代表所有
./代表根目錄
user-agent: * # 代表的是那些爬蟲
disallow: / # 代表不允許爬蟲訪問的目錄
例:京東的robots協議
可以看到京東對爬蟲的限制:
# 對於任何的網路爬蟲**,遵守如下協議
user-agent: *
disallow: /?*
disallow: /pop/*.html
disallow: /pinpai/*.html?*
# 以下四個網路爬蟲不允許爬取任何資源
user-agent: etaospider
disallow: /
user-agent: huihuispider
disallow: /
user-agent: gwdangspider
disallow: /
user-agent: wochachaspider
disallow: /
robots.txt檔案放置在**根目錄下。舉例來說,當spider訪問乙個**時,首先會檢查該**中是否存在robots.txt這個檔案,如果 spider找到這個檔案,它就會根據這個檔案的內容,來確定它訪問許可權的範圍。(並不是所有的**都有robots協議)
網路爬蟲:自動或人工識別robots.txt,再進行內容爬取
約束性:robots協議是建議但並非約束性,網路爬蟲可以不遵守,但存在法律風險。
robots協議是**出於安全和隱私考慮,防止搜尋引擎抓取敏感資訊而設定的。搜尋引擎的原理是通過一種爬蟲spider程式,自動蒐集網際網路上的網頁並獲取相關資訊。而鑑於網路安全與隱私的考慮,每個**都會設定自己的robots協議,來明示搜尋引擎,哪些內容是願意和允許被搜尋引擎收錄的,哪些則不允許。搜尋引擎則會按照robots協議給予的許可權進行抓取。
****
京東**
2023年10月25日,京東**正式將一淘網的搜尋爬蟲遮蔽,以防止一淘網對其的內容抓取。
robots 協議介紹
robots.txt怎麼寫 1 允許所有搜尋引擎訪問 user agent disallow 或者user agent allow 在這裡大家要注意下,可以最直接的建乙個空檔案 robots.txt 然後放到 的根目錄。2 禁止所有搜尋引擎訪問 user agent disallow 或者user ...
爬蟲協議robots
robots協議 也稱為爬蟲協議 機械人協議等 全稱是 網路爬蟲排除標準 robots exclusion protocol 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。本文將詳細介紹爬蟲協議robots 當乙個搜尋蜘蛛訪問乙個站點時,它會首先檢查該站點根目錄下是否存在rob...
robots 協議介紹
robots.txt怎麼寫 1 允許所有搜尋引擎訪問 user agent disallow 或者user agent allow 在這裡大家要注意下,可以最直接的建乙個空檔案 robots.txt 然後放到 的根目錄。2 禁止所有搜尋引擎訪問 user agent disallow 或者user ...