21天pyhton分布式爬蟲 爬蟲基礎2

2021-10-06 23:30:26 字數 565 閱讀 8798

http協議:全稱是hypertext transfer protocol,中文意思是超文字傳輸協議,是一種發布和接收html頁面的方法。伺服器端口號為80埠

https 協議:是http協議的加密版本,在http下加入了ssl層,伺服器端口號是443埠

當使用者在瀏覽器的位址中輸入乙個url並按回車鍵後,瀏覽器會向http伺服器傳送http請求,http請求主要分為"get"和「poest兩種方法」

當我們在瀏覽器中輸入url的時候,瀏覽器傳送request 請求去獲取該**的html檔案,伺服器把response檔案物件傳送給瀏覽器

瀏覽器分析response 中的html,發現其中引用了很多其他的問及愛你,比如images ,css js檔案。瀏覽器會自動再次傳送request 去獲取css檔案或者js檔案。

url是uniform redource locator的簡寫,為統一資源定位符

而乙個url由以下的幾個部分構成

scheme://host:port/path/?query-string=***&anchor

21天打造分布式爬蟲 requests庫(二)

簡單使用 import requests response requests.get text返回的是unicode的字串,可能會出現亂碼情況 print response.text content返回的是位元組,需要解碼 print response.content.decode utf 8 pr...

21天打造分布式爬蟲 urllib庫(一)

encoding utf 8 from urllib import request res request.urlopen print res.readlines urlopen的引數 def urlopen url,data none,timeout socket.global default t...

爬蟲 分布式爬蟲

爬蟲的本質 很多搞爬蟲的總愛吹噓分布式爬蟲,彷彿只有分布式才有逼格,不是分布式簡直不配叫爬蟲,這是一種很膚淺的思想。分布式只是提高爬蟲功能和效率的乙個環節而已,它從來不是爬蟲的本質東西。爬蟲的本質是網路請求和資料處理,如何穩定地訪問網頁拿到資料,如何精準地提取出高質量的資料才是核心問題。分布式爬蟲只...