分析robots協議:
1.robots協議
也稱為爬蟲協議,機械人協議,全稱為網路爬蟲排除標準,用來告訴爬蟲和搜尋引擎哪些頁面可以抓取,哪些頁面不可以抓取。通常放在乙個叫做robots.txt的文字檔案,一般放在**的根目錄下。當搜尋爬蟲訪問乙個站點時,會先檢查這個站點根目錄下是否有該檔案,如果存在會根據其中定義的爬取範圍來爬取,如果沒有,爬蟲會直接訪問所有可以直接訪問的頁面。
disallow:爬蟲不允許爬取的範圍,如果為 / 則表示所有都不可以爬取
allow:爬蟲允許爬取的範圍
每個爬蟲都有屬於自己的disallow和allow,當然robots檔案也可以為空
2.robotparser
該模組提供了乙個類robotfileparser,他可以根據robots.txt檔案來判斷乙個爬取爬蟲是否有許可權來爬取這個網頁
使用時可以只要在構造方法裡傳入robots.txt的鏈結即可
urllib.robotparser.robotfileparser(url='')
也可用他的方法:
from urllib.robotparser import robotfileparserrp = robotfileparser()
#也可將下面那步省略,直接rp = robotfileparser()
rp.set_url('')
rp.read()
#也可以將這裡改為rp.parse(urlopen().read().decode('utf-8').split('/n'))
print(rp.can_fetch('*',''))
print(rp.can_fetch('*',""))
由此我們可以分析步驟:
1.傳入robot.txt鏈結
2.用read函式讀取
3.分析鏈結哪些檔案可以爬取
Python 3 網路爬蟲
python 原來還可以這樣玩 python爬蟲,破解有道翻譯介面引數 破解有道翻譯反爬蟲機制 python3網路爬蟲快速入門實戰解析 article details 78123502 python3網路爬蟲 五 python3安裝scrapy article details 60156205 py...
Python3 網路爬蟲 1
準備開始寫一些python3關於爬蟲相關的東西,主要是一些簡單的網頁爬取,給身邊的同學入門看。首先我們向網路伺服器傳送get請求以獲取具體的網頁,再從網頁中讀取html內容。python view plain copy print?coding utf 8 from urllib.request i...
初識Python3網路爬蟲
定義 網路爬蟲 web spider 又被稱為網頁蜘蛛,是一種按照一定的規則,自動地抓取 資訊的程式或者指令碼。爬蟲其實是通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 抓取網際網路上的資料,為我所用,有了大量的資料,就如同有了乙個資料銀行一樣,下一步就是如何將這些資料...