http協議:全稱是hypertext transfer protocol
,中文意思是超文字傳輸協議,是一種發布和接收html頁面的方法。伺服器端口號為80埠
https 協議:是http協議的加密版本,在http下加入了ssl層,伺服器端口號是443埠
當使用者在瀏覽器的位址中輸入乙個url並按回車鍵後,瀏覽器會向http伺服器傳送http請求,http請求主要分為"get"和「poest兩種方法」
當我們在瀏覽器中輸入url的時候,瀏覽器傳送request 請求去獲取該**的html檔案,伺服器把response檔案物件傳送給瀏覽器
瀏覽器分析response 中的html,發現其中引用了很多其他的問及愛你,比如images ,css js檔案。瀏覽器會自動再次傳送request 去獲取css檔案或者js檔案。
url是uniform redource locator
的簡寫,為統一資源定位符
而乙個url由以下的幾個部分構成
scheme://host:port/path/?query-string=***&anchor
21天打造分布式爬蟲 requests庫(二)
簡單使用 import requests response requests.get text返回的是unicode的字串,可能會出現亂碼情況 print response.text content返回的是位元組,需要解碼 print response.content.decode utf 8 pr...
21天打造分布式爬蟲 urllib庫(一)
encoding utf 8 from urllib import request res request.urlopen print res.readlines urlopen的引數 def urlopen url,data none,timeout socket.global default t...
爬蟲 分布式爬蟲
爬蟲的本質 很多搞爬蟲的總愛吹噓分布式爬蟲,彷彿只有分布式才有逼格,不是分布式簡直不配叫爬蟲,這是一種很膚淺的思想。分布式只是提高爬蟲功能和效率的乙個環節而已,它從來不是爬蟲的本質東西。爬蟲的本質是網路請求和資料處理,如何穩定地訪問網頁拿到資料,如何精準地提取出高質量的資料才是核心問題。分布式爬蟲只...