我們先開始最簡單的抓取頁面,
import requests #匯入requests庫
url =
""try:
r = requests.get(url)
#通過requests庫的get方法
r.raise_for_status(
)#判斷返回的狀態碼是否為200,不是200返回異常
print
(r.text)
#輸出網頁的源**
except
:print
("抓取失敗!"
)#異常處理
執行結果
這個爬蟲例子我們主要學習user-agent的新增,爬取的**58同城
import requests #匯入requests庫
url =
""#爬取的網頁
kv =
#偽裝的user-agent,爬蟲預設的是python的標識
try:
r = requests.get(url, headers=kv, timeout=10)
#將字典形式的user-agent提交給控制引數headers,timeout是請求時間,超時返回異常
r.raise_for_status(
)#判斷返回的狀態碼是否為200,不是200返回異常
print
(r.text[
8000
:9999])
#輸出網頁的源**,其中[8000:9999]表示輸出8000行到9999行
except
:print
("抓取失敗!"
)#異常處理
執行結果
import requests
url =
""#url鏈結使用?前面的後面的都是引數
kv1 =
#偽裝請求頭
kv2 =
#搜尋的內容
try:
r = requests.get(url, headers=kv1, params=kv2, timeout=10)
r.raise_for_status(
)#判斷返回的狀態碼是否為200,不是200返回異常
print
(r.text)
#輸出內容
#print(r.url) #輸出提交的url鏈結,可以測試看看
except
:print
("抓取失敗!"
)
執行結果
import requests
url =
""#這個是儲存路徑,下面兩個分別是以鏈結中的名字命名和自己命名的1111.mp4,使用split方法將url鏈結中最後乙個"/"後的名字切割出來
path =
+url.split(
"/")[-
1]try:
r = requests.get(url)
#首先open語句,path:檔案儲存路徑,
# "wb":以二進位制寫方式開啟,只能寫檔案,如果檔案不存在,建立該檔案;如果檔案已存在,先清空,再開啟檔案
#然後是with-as語句,對資源進行訪問時,確保不管使用過程中是否發生異常都會執行必要的「清理」操作,釋放資源,如檔案的自動關閉
with
open
(path,
"wb")as
file
:file
.write(r.content)
print()
except
:print
("抓取失敗!"
)
執行結果
以上均為個人學習筆記,如有錯誤請指正,共同學習,謝謝。
Python爬蟲 Request模組
文章說明了request模組的意義,且強調了request模組使用更加方便。接下來介紹幾種常用的request操作,並且會在後續補充說明一些特定用法。匯入檔案 import requests一 請求 右邊為請求語句,返回值為response回應 r requests.get r requests.p...
python爬蟲利器 request庫
request庫比urllib2庫更為高階,因為其功能更強大,更易於使用。使用該庫可以十分方便我們的抓取。基本請求 r requests.get r requests.post r requests.put r requests.delete r requests.head r requests.o...
爬蟲 python(二)初識request
from urllib.request import urlopen 傳送請求,獲取伺服器給的響應 url response urlopen url 讀取結果,無法正常顯示中文 html response.read 進行解碼操作,轉為utf 8 html decode html.decode 列印結...