準備工作
安裝好pycharm,requests庫
requests 爬蟲程式(模板)
在開始寫爬蟲時,一定要注意響應狀態,如果返回404,我們能及時作出修改。import requests
defgethtmttext
(url)
:try
: r=requests.get(url,timeout=30)
r.raise_for_status(
)#如果狀態不是200,引發httperror異常
r.encoding=r.raise_for_status(
)return r.text
except
:return
"產生異常"
if __name__==
"__main__"
: url=
(gethtmttext(url)
)#列印url頁面內容
理解requests庫的異常
requests.connectionerror:網路連線錯誤異常,如dns查詢失敗、拒絕連線等。
requests.httperror:http錯誤異常。
requests.urlrequired:url缺失異常。
requests.toomanyredirects:超過最大重定向次數,產生重定向異常。
requests.connecttimeout連線遠端伺服器超時異常。:
requests.timeout:請求url超時,產生超時異常。
requests 庫的7個主要方法
requests.request():構造乙個請求,支撐以下各方法的基礎方法。
requests.get():獲取html網頁的主要方法,對應於http的get。
requests.head():獲取html王玉婷頭資訊的方法,對應於http的head。
request.post():向html網頁提交post請求的方法,對應於http的post。
requests.put():向html網頁提交put請求的方法,對應於http的put。
requests.patch():向html網頁提交區域性修改請求,對應於http的patch。
requests.delete():向html頁面提交刪除請求,對應於http的delete。
http協議
http,超文字傳輸協議。
http是乙個基於「請求與響應」模式的、無狀態的應用層協議http協議採用url作為定位網路資源的標識,url的格式如下:
host:合法的internet主機網域名稱或ip位址
port:埠號,預設埠為80
path:請求資源的路徑
http協議對資源的操作
get:請求獲取url位置的資源。
head:請求獲取url位置資源的響應訊息報告,即獲得資源的頭部資訊。
post:請求向url位置的資源後附加新的資料。
put:請求向url位置儲存乙個資源,覆蓋原url位置的資源。
patch:請求區域性更新url位置的資源,即改變該處資源的部分內容。
delete:請求刪除url位置儲存的資源。
requests.request(method,url,**kwatgs)
method:請求方式
**kwargs:控制訪問的引數,均為可選項r=requests.request(
'get'
,url,
**kwargs)
r=requests.request(
'head'
,url,
**kwargs)
r=requests.request(
'post'
,url,
**kwargs)
r=requests.request(
'pur'
,url,
**kwargs)
r=requests.request(
'patch'
,url,
**kwargs)
r=requests.request(
'delete'
,url,
**kwargs)
r=requests.request(
'options'
,url,
**kwargs)
Python爬蟲 HTTP協議 Requests庫
http協議 http hypertext transfer protocol 即超文字傳輸協議。url是通過http協議訪問資源的internet路徑,乙個url對應乙個資料資源。http協議對資源的操作 requests庫提供了http所有的基本請求方式。官方介紹 requests庫的6個主要方...
python 爬蟲系列02 認識 requests
本系列所有文章基於 python3.5.2 requests 是基於 urllib 的三方模組,相比於 uillib,操作更簡潔,功能更強大,而且支援 python3 getimport requests r requests.get url print r.status code print r....
python小白學習記錄 爬蟲requests篇
一 引用庫 import requests 二 請求訪問url,網頁相應 res requests.get 網頁位址 三 表明返回內容 目前返回的response物件有四種屬性 status code 檢查請求是否成功 content 將資料轉換為二進位制資料 text 將資料轉換為字串型資料 en...