4.requests庫的異常
5.爬蟲通用**框架
6.url格式
方法說明
requests.get()
獲取html網頁
requests.head()
獲取html網頁頭資訊
requests.post()
向html網頁提交post請求
requests.put()
向html網頁提交put請求
requests.patch()
向html網頁提交區域性修改請求
requests.delete()
向html網頁提交刪除請求
import requests
r = requests.get("")
屬性
說明r.status_code
http請求返回的狀態,200表示成功。
r.text
http響應內容的字串形式
r.encoding
從http header猜測出的編碼方式
從http響應內容中分析出編碼方式
r.content
http響應內容的二進位制形式
異常說明
requests.connectionerror
網路連線錯誤異常
http錯誤異常
requests.urlrequired
url缺失異常
requests.toomanyredirects
超過最大重定向次數
requests.connecttimeout
連線遠端伺服器超時
requests.timeout
請求url超時
response的異常異常
說明r.raise_for_status()
如果狀態碼不是200,返回requests.httperror
import requests
defgethtmltext
(url)
:try
: r = requests.get(url, timeout =30)
r.raise_for_status(
) return r.text
except
:return
"產生異常"
if __name__ ==
"__main__"
: url =
""print
(gethtmltext(url)
)
http://host[:port][path]
host
: 合法的internet主機網域名稱或ip位址
port
: 埠號,預設80
path
請求資源的路徑
爬蟲基礎知識及requests常用方法總結
一 瀏覽器disable cache 和 preserve log的作用.二 複製url亂碼情況 from urllib.parse import urlencode.三 requests請求 res resquests.get url print res 得到的是物件 print res.text...
爬蟲基礎知識
大資料時代,要進行資料分析,首先要有資料來源。而學習爬蟲,可以讓我們獲取更多的資料來源,並且這些資料來源可以按我們的目的進行採集,去掉很多無關資料。網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬客戶端傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。只要是瀏覽器能做的事...
爬蟲基礎之Requests庫入門
import requests r requests.get r.status code r.encoding utf 8 r.text方法 說明requests.request 構造乙個請求,支援以下各方法的基礎方法 requests.get 獲取html網頁的主要方法,對應http的get re...