一網路爬蟲之入門 2

web伺服器預設接收人類訪問受限於編寫水平和目的，網路爬蟲將會為web伺服器帶來巨大的資源開銷

伺服器上的資料有產權歸屬網路爬蟲獲取資料後牟利將帶來法律風險

網路爬蟲可能具備突破簡單訪問控制的能力，獲得被保護資料從而洩露個人隱私

檢查來訪http協議頭的user‐agent域，只響應瀏覽器或友好爬蟲的訪問

- 發布公告：robots協議

告知所有爬蟲**的爬取策略，要求爬蟲遵守

robots exclusion standard，網路爬蟲排除標準 - 作用： **告知網路爬蟲哪些頁面可以抓取，哪些不行 - 形式：在**根目錄下的robots.txt檔案

京東robots協議

user-agent: * 對於任何爬蟲** disallow: /?* 不允許訪問？開頭的路徑 disallow: /pop/*.html 不許訪問/pop/*.html disallow: /pinpai/*.html?* 不許訪問/pinpai/*.html?* user-agent: etaospider 以下四個爬蟲不允許訪問任何資源 disallow: / user-agent: huihuispider disallow: / user-agent: gwdangspider disallow: / user-agent: wochachaspider disallow: /

*代表所有，/代表根目錄 user‐agent: * disallow: / 不提供robots協議說明允許所有**爬取任何內容

網路爬蟲：自動或人工識別robots.txt ，在進行內容爬取約束性：robots協議是建議但非約束性，網路爬蟲可以不遵守，但存在網路風險

程式的類人行為可不參考robots協議，但是注意爬取資源不能用於商業。