抓取 網頁中的所有出版社的名稱。網頁如圖:
方法1 :
import re
import urllib.request
from urllib.request import urlopen, request
pattern =
'(.*?)
'# 使用正規表示式抽取,輸出的東西在()之中
headers =
#模擬瀏覽器
ret = request(
"", headers=headers)
data = urlopen(ret)
.read(
).decode(
'utf-8'
)result = re.
compile
(pattern)
.findall(
str(data)
)#全域性匹配
fh =
open
("c:/users/echo/desktop/result.txt"
,"w"
)# 寫入文件
for index in
range
(len
(result)):
fh.write(result[index]
+"\n"
)print
(result)
方法2 :使用全域性變數,新增之後與一般爬取流程相同:
Python爬蟲 模擬瀏覽器訪問 Requests
有時候爬蟲需要加入請求頭來偽裝成瀏覽器,以便更好的抓取資料.開啟瀏覽器chrome找到user agent進行複製 headers headers get方法新增請求頭 print res.text 執行結果 requests庫不僅有get 方法,還有post 等方法.post 方法用於提交表單來爬...
python爬蟲2之簡單模擬瀏覽器
有時在利用爬蟲爬取一些 時,會出現403錯誤 forbidden。這是因為一些 進行了一些反爬蟲的設定。於是需要將爬蟲偽裝成瀏覽器,可以設定user agent資訊。以下介紹兩種讓爬蟲模擬成瀏覽器訪問 的方法。1使用build opener 修改報頭。5步 import urllib.request...
Python 爬蟲瀏覽器偽裝技術
瀏覽器偽裝技術實戰 1 常見的反爬蟲和應對方法 前兩種比較容易遇到,大多數 都從這些角度來反爬蟲。第三種一些應用ajax的 會採用,這樣增大了爬取的難度。通過headers反爬蟲 基於使用者行為反爬蟲 動態頁面的反爬蟲 2 請求頭headers介紹 1 請求 客戶端 服務端 request get ...