2017-07-25 21:08:16
一、網路爬蟲的規模
二、網路爬蟲的限制
• **審查:判斷user‐agent進行限制
檢查來訪http協議頭的user‐agent域,只響應瀏覽器或友好爬蟲的訪問
• 發布公告:robots協議
告知所有爬蟲**的爬取策略,要求爬蟲遵守
三、robots 協議
如果**不提供robots協議則表示該**允許任意爬蟲爬取任意次數。
類人類行為原則上可以不遵守robots協議
舉例:
user‐agent: *disallow: /?*disallow: /pop/*.htmldisallow: /pinpai/*.html?*user‐agent: etaospider
disallow: /user‐agent: huihuispider
disallow: /user‐agent: gwdangspider
disallow: /user‐agent: wochachaspider
disallow: /
#注釋,*代表所有,/代表根目錄
user‐agent: *disallow: /
Python網路爬蟲規則之Robots協議
1 網路爬蟲引發的問題 網路爬蟲是乙個很有趣的功能,它既能獲得網路上的資源,但是它可以帶來很多很嚴重的問題。我們現在常用的網路爬蟲,按尺寸劃分可以分為三大類。第一類是指以爬取網頁或者玩轉網頁為主的一類爬蟲,這類爬蟲規模很小,獲取網路的資料量也很小,它對爬取網頁的速度並不敏感,針對這一類的網路爬蟲我們...
爬蟲協議robots
robots協議 也稱為爬蟲協議 機械人協議等 全稱是 網路爬蟲排除標準 robots exclusion protocol 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。本文將詳細介紹爬蟲協議robots 當乙個搜尋蜘蛛訪問乙個站點時,它會首先檢查該站點根目錄下是否存在rob...
python 協程 爬蟲
協程 又叫微執行緒 python的多執行緒沒法利用多核,只能用乙個核去切換,沒辦法實現真正的並行效果。多執行緒的意義,對於io密集型是有意義的。大部分處理都是io的,多執行緒是可以解決大多數情況的。但是解決不了並行的多程序。協程 非搶占式的程式,執行緒和程序都是搶占式的。協程也是要切換的,不過這種切...