python爬蟲 Requests庫爬取實戰(三)

2021-10-05 16:27:59 字數 2452 閱讀 1218

我們先開始最簡單的抓取頁面,
import requests             #匯入requests庫

url =

""try:

r = requests.get(url)

#通過requests庫的get方法

r.raise_for_status(

)#判斷返回的狀態碼是否為200,不是200返回異常

print

(r.text)

#輸出網頁的源**

except

:print

("抓取失敗!"

)#異常處理

執行結果

這個爬蟲例子我們主要學習user-agent的新增,爬取的**58同城

import requests                         #匯入requests庫

url =

""#爬取的網頁

kv =

#偽裝的user-agent,爬蟲預設的是python的標識

try:

r = requests.get(url, headers=kv, timeout=10)

#將字典形式的user-agent提交給控制引數headers,timeout是請求時間,超時返回異常

r.raise_for_status(

)#判斷返回的狀態碼是否為200,不是200返回異常

print

(r.text[

8000

:9999])

#輸出網頁的源**,其中[8000:9999]表示輸出8000行到9999行

except

:print

("抓取失敗!"

)#異常處理

執行結果

import requests

url =

""#url鏈結使用?前面的後面的都是引數

kv1 =

#偽裝請求頭

kv2 =

#搜尋的內容

try:

r = requests.get(url, headers=kv1, params=kv2, timeout=10)

r.raise_for_status(

)#判斷返回的狀態碼是否為200,不是200返回異常

print

(r.text)

#輸出內容

#print(r.url) #輸出提交的url鏈結,可以測試看看

except

:print

("抓取失敗!"

)

執行結果

import requests

url =

""#這個是儲存路徑,下面兩個分別是以鏈結中的名字命名和自己命名的1111.mp4,使用split方法將url鏈結中最後乙個"/"後的名字切割出來

path =

+url.split(

"/")[-

1]try:

r = requests.get(url)

#首先open語句,path:檔案儲存路徑,

# "wb":以二進位制寫方式開啟,只能寫檔案,如果檔案不存在,建立該檔案;如果檔案已存在,先清空,再開啟檔案

#然後是with-as語句,對資源進行訪問時,確保不管使用過程中是否發生異常都會執行必要的「清理」操作,釋放資源,如檔案的自動關閉

with

open

(path,

"wb")as

file

:file

.write(r.content)

print()

except

:print

("抓取失敗!"

)

執行結果

以上均為個人學習筆記,如有錯誤請指正,共同學習,謝謝。

Python爬蟲 Request模組

文章說明了request模組的意義,且強調了request模組使用更加方便。接下來介紹幾種常用的request操作,並且會在後續補充說明一些特定用法。匯入檔案 import requests一 請求 右邊為請求語句,返回值為response回應 r requests.get r requests.p...

python爬蟲利器 request庫

request庫比urllib2庫更為高階,因為其功能更強大,更易於使用。使用該庫可以十分方便我們的抓取。基本請求 r requests.get r requests.post r requests.put r requests.delete r requests.head r requests.o...

爬蟲 python(二)初識request

from urllib.request import urlopen 傳送請求,獲取伺服器給的響應 url response urlopen url 讀取結果,無法正常顯示中文 html response.read 進行解碼操作,轉為utf 8 html decode html.decode 列印結...