python爬蟲2之簡單模擬瀏覽器

2021-08-01 18:34:04 字數 549 閱讀 3820

有時在利用爬蟲爬取一些**時,會出現403錯誤:forbidden。這是因為一些**進行了一些反爬蟲的設定。

於是需要將爬蟲偽裝成瀏覽器,可以設定user-agent資訊。

以下介紹兩種讓爬蟲模擬成瀏覽器訪問**的方法。

1使用build_opener()修改報頭。5步

import urllib.request

url=""

opener=urllib.request.build_opener()

opener.addheaders = [header]

data=opener.open(url).read()

2使用add_header()新增報頭。4步

import urllib.request

url=""

req=urllib.request.request(url)

data=urllib.request.urlopen(req)

最後將data儲存到本地檔案中即可。

python爬蟲之模擬登入

pip install requests post cid 137 pip install ddddocr基礎使用方法 print res 官方詳細用法 pip install fake useragent使用方法 from fake useragent import useragent ua us...

2,簡單的Python爬蟲

前言 環境 作業系統 windows10 ide pycharm2018.1 直譯器 python3.6 1,只需短短4行 或許python爬蟲給大家的感覺就是比較高階,比較牛逼的一項技術,而其實呢,它的核心 就只有以下幾行!至少對於初學者來說,只需要知道它如何使用 1 import request...

Python爬蟲之模擬POST請求

multipart form data text xml flask 獲取引數的幾種方式方式 python 中 requests 模組提交 post 引數的幾種方式 提交 multipart form data 格式的引數,需要借助乙個第三方模組 requests toolbelt 來對引數進行封裝...