requests是python實現的簡單易用的http庫。
headers是解決requests請求反爬的方法之一,相當於我們進去這個網頁的伺服器本身,假裝自己本身在爬取資料。
對反爬蟲網頁,可以設定一些headers資訊,模擬成瀏覽器取訪問**。
headers =
web = requests.get(url, headers=headers)
url為需要爬取的網頁。
ps:headers中有很多內容,主要常用的就是user-agent 和 host,他們是以鍵對的形式展現出來,如果user-agent 以字典鍵對形式作為headers的內容,就可以反爬成功,就不需要其他鍵對。
import requests
# url = ''
url =
''headers =
web = requests.get(url, headers=headers)
web.encoding=
'gbk'
# 第一種:
# with open('weibo_t2.html','w',encoding='gbk') as f1:
# f1.write(web.text)
# 第二種:
f1 =
open
('51job.txt'
,'w'
, encoding=
'utf-8'
)f1.write(web.text)
c = web.text
print
(c)
pip install fake-useragent,隨機生成不同的user-agent
修改的部分**如下:
import requests
from fake_useragent import useragent
ua = useragent(
)headers =
url =
'待爬網頁的url'
resp = requests.get(url, headers=headers)
在此省略具體爬蟲的解析**。
然而,在拉勾網最多也只一次性爬取了75行資料。
爬蟲request庫簡單使用
為什麼要學習requests,而不是urllib requests的底層實現就是urllib requests在python2和python3通用,法完全 樣 requests簡單易 requests能夠 動幫助我們解壓 gzip壓縮的 網頁內容 requests的作用 作 傳送 絡請求,返回相應資...
爬蟲 獲取頁面 request庫的使用
requests是乙個封裝了python自帶的urllib模組的乙個易用型模組,它使得程式設計師對傳送請求和獲取響應等http操作的 編寫更加簡單。import requests基本步驟如下 設定請求頭資訊,一般是改變user agent 通過get 方法獲取頁面資訊 判斷是否發生異常 如無異常返回...
爬蟲request庫規則與例項
request庫的7個主要方法 requests.request method,url,kwargs r requests.request get url,kwargs r requests.request head url,kwargs params 字典或位元組序列,作為引數增加到url中 da...