import requests
r = requests.get("")
r.status_code
r.encoding = 'utf-8'
r.text
方法
說明requests.request()
構造乙個請求,支援以下各方法的基礎方法
requests.get()
獲取html網頁的主要方法,對應http的get
requests.head()
獲取html網頁頭資訊的方法,對應http的head
requests.post()
向html網頁提交post請求,對應http的post
requests.put()
向html網頁提交put請求,對應http的put
requests.patch()
向html網頁提交區域性修改請求,對應http的patch
requests.delete()
向html頁面提交刪除請求,對應http的delete
r = requests.get(url, params=none, **kwargs)
構造乙個向伺服器請求資源的request物件,返回乙個包含伺服器資源的response物件。
url: 擬獲取頁面的url鏈結。
params(可選引數):url中的額外引數,字典或位元組流格式。
**kwargs(可選引數):12個控制訪問的引數。
requests庫的其他6個其實都是呼叫request方法實現的。例如get方法在源**中是這樣寫的:
def get(url, params=none, **kwargs):
kwargs.setdefault('allow redirects', true)
return request('get', url, params=params, **kwargs)
屬性
說明r.status_code
http請求的返回狀態,200表示連線成功,404表示連線失敗
r.text
http響應內容的字串形式,即url對應的頁面內容
r.encoding
從http header中猜測的響應內容編碼方式
從內容中分析出的響應內容編碼方式(備選編碼方式)
r.content
http響應內容的二進位制形式
異常說明
requests.connectionerror
網路連線錯誤異常,如dns查詢失敗、拒絕連線等
http錯誤異常
requests.urlrequired
url缺失異常
requests.toomanyredirects
超過最大重定向次數,產生重定向異常
requests.connecttimeout
連線遠端伺服器超時異常
requests.timeout
請求url超時,產生超時異常
r.raise_for_status()
如果不是200,產生異常requests.httperror
# 爬取網頁的通用**框架
import requests
def gethtmltext(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
return r.text
except:
return "產生異常"
if __name__ == "__main__":
url = ""
print(gethtmltext(url))
爬蟲之Requests庫
處理cookie 雖然python的標準庫中urllib模組已經包含我們平常使用的大多數功能,但是它的api使用起來讓人感覺不太好,而requests使用起來更加方便 利用pip 可以非常方便安裝 pip install requests最簡單的傳送get請求的方式就是通過requests.get呼...
Python爬蟲之Requests庫
所謂爬蟲就是模擬客戶端傳送網路請求,獲取網路響應,並按照一定的規則解析獲取的資料並儲存的程式。要說 python 的爬蟲必然繞不過 requests 庫。對於 requests 庫,官方文件是這麼說的 requests 唯一的乙個非轉基因的 python http 庫,人類可以安全享用。警告 非專業...
python爬蟲之requests庫
在python爬蟲中,要想獲取url的原網頁,就要用到眾所周知的強大好用的requests庫,在2018年python文件年度總結中,requests庫使用率排行第一,接下來就開始簡單的使用requests庫吧.在window環境下,推薦是用pip進行安裝,因為便捷而且不用考慮檔案的解壓路徑 pip...