http協議:
http(hypertext transfer protocol):即超文字傳輸協議。url是通過http協議訪問資源的internet路徑,乙個url對應乙個資料資源。
http協議對資源的操作:
requests庫提供了http所有的基本請求方式。官方介紹:
requests庫的6個主要方法:
requests庫的異常:
requests庫的兩個重要物件:request(請求)、response(相應)。request物件支援多種請求方法;response物件包含伺服器返回的所有資訊,也包含請求的request資訊。
response物件的屬性:
其中,r.encoding指:如果header中不存在charset,則認為編碼為iso‐8859‐1。
r.raise_for_status()可以直接知道r.status_code是否等於200。
http協議與requests庫對比:
爬取網頁的通用**框架:
例如,獲取pmcaff首頁的資訊:
' print(gethtmltext(url))
(
巨弘娛樂 juhongyulept.com
新貝娛樂 xinbeiyule.cn
吉美娛樂 jimeiyulept.com
無極娛樂 wujiyule88.cn
七彩娛樂 qicaiyulept.cn
python爬蟲基礎 http協議
http協議 1.1headers是請求頭 request headers是傳送過去的請求,裡面包含了完整的http請求資料,在之後我們爬取 頁面時會用到。get是獲取方式 host是遠端主機位址 connection客戶端希望的聯機方式 accept是客戶端能接受的 型別 user agent標示...
Python 爬蟲教程 2 HTTP協議
http是一種應用層協議,是一種在網路中進行資料傳輸時,收發雙方提前達成的某些共同約定,http 協議涵蓋的內容極廣,而這裡我們主要關注 http 在報文格式上的約定。首先會對如何對 http 中資源進行定位,然後介紹下 http 報文結構,接下來介紹下 http 的請求和響應,最後給出乙個示例。u...
爬蟲入門 (一)HTTP協議
1 request method 請求方式,如get post put delete head 只返回response物件的res headers 2 request url 請求url,請求的統一資源定位符,訪問網頁時第一次請求是document請求,然後是解析其中的url,然後發起script ...