Python爬蟲模擬瀏覽器示例

2021-10-06 23:03:25 字數 1081 閱讀 6251

抓取 網頁中的所有出版社的名稱。網頁如圖:

方法1 :

import re

import urllib.request

from urllib.request import urlopen, request

pattern =

'(.*?)

'# 使用正規表示式抽取,輸出的東西在()之中

headers =

#模擬瀏覽器

ret = request(

"", headers=headers)

data = urlopen(ret)

.read(

).decode(

'utf-8'

)result = re.

compile

(pattern)

.findall(

str(data)

)#全域性匹配

fh =

open

("c:/users/echo/desktop/result.txt‪"

,"w"

)# 寫入文件

for index in

range

(len

(result)):

fh.write(result[index]

+"\n"

)print

(result)

方法2 :使用全域性變數,新增之後與一般爬取流程相同:

Python爬蟲 模擬瀏覽器訪問 Requests

有時候爬蟲需要加入請求頭來偽裝成瀏覽器,以便更好的抓取資料.開啟瀏覽器chrome找到user agent進行複製 headers headers get方法新增請求頭 print res.text 執行結果 requests庫不僅有get 方法,還有post 等方法.post 方法用於提交表單來爬...

python爬蟲2之簡單模擬瀏覽器

有時在利用爬蟲爬取一些 時,會出現403錯誤 forbidden。這是因為一些 進行了一些反爬蟲的設定。於是需要將爬蟲偽裝成瀏覽器,可以設定user agent資訊。以下介紹兩種讓爬蟲模擬成瀏覽器訪問 的方法。1使用build opener 修改報頭。5步 import urllib.request...

Python 爬蟲瀏覽器偽裝技術

瀏覽器偽裝技術實戰 1 常見的反爬蟲和應對方法 前兩種比較容易遇到,大多數 都從這些角度來反爬蟲。第三種一些應用ajax的 會採用,這樣增大了爬取的難度。通過headers反爬蟲 基於使用者行為反爬蟲 動態頁面的反爬蟲 2 請求頭headers介紹 1 請求 客戶端 服務端 request get ...