爬蟲 request的使用與優化

2021-10-05 08:40:33 字數 1141 閱讀 4360

requests是python實現的簡單易用的http庫。

headers是解決requests請求反爬的方法之一,相當於我們進去這個網頁的伺服器本身,假裝自己本身在爬取資料。

對反爬蟲網頁,可以設定一些headers資訊,模擬成瀏覽器取訪問**。

headers =

web = requests.get(url, headers=headers)

url為需要爬取的網頁。

ps:headers中有很多內容,主要常用的就是user-agent 和 host,他們是以鍵對的形式展現出來,如果user-agent 以字典鍵對形式作為headers的內容,就可以反爬成功,就不需要其他鍵對。

import requests

# url = ''

url =

''headers =

web = requests.get(url, headers=headers)

web.encoding=

'gbk'

# 第一種:

# with open('weibo_t2.html','w',encoding='gbk') as f1:

# f1.write(web.text)

# 第二種:

f1 =

open

('51job.txt'

,'w'

, encoding=

'utf-8'

)f1.write(web.text)

c = web.text

print

(c)

pip install fake-useragent,隨機生成不同的user-agent

修改的部分**如下:

import requests

from fake_useragent import useragent

ua = useragent(

)headers =

url =

'待爬網頁的url'

resp = requests.get(url, headers=headers)

在此省略具體爬蟲的解析**。

然而,在拉勾網最多也只一次性爬取了75行資料。

爬蟲request庫簡單使用

為什麼要學習requests,而不是urllib requests的底層實現就是urllib requests在python2和python3通用,法完全 樣 requests簡單易 requests能夠 動幫助我們解壓 gzip壓縮的 網頁內容 requests的作用 作 傳送 絡請求,返回相應資...

爬蟲 獲取頁面 request庫的使用

requests是乙個封裝了python自帶的urllib模組的乙個易用型模組,它使得程式設計師對傳送請求和獲取響應等http操作的 編寫更加簡單。import requests基本步驟如下 設定請求頭資訊,一般是改變user agent 通過get 方法獲取頁面資訊 判斷是否發生異常 如無異常返回...

爬蟲request庫規則與例項

request庫的7個主要方法 requests.request method,url,kwargs r requests.request get url,kwargs r requests.request head url,kwargs params 字典或位元組序列,作為引數增加到url中 da...