21天pyhton分布式爬蟲爬蟲基礎2

http協議：全稱是hypertext transfer protocol，中文意思是超文字傳輸協議，是一種發布和接收html頁面的方法。伺服器端口號為80埠

https 協議：是http協議的加密版本，在http下加入了ssl層，伺服器端口號是443埠

當使用者在瀏覽器的位址中輸入乙個url並按回車鍵後，瀏覽器會向http伺服器傳送http請求，http請求主要分為"get"和「poest兩種方法」

當我們在瀏覽器中輸入url的時候，瀏覽器傳送request 請求去獲取該**的html檔案，伺服器把response檔案物件傳送給瀏覽器

瀏覽器分析response 中的html，發現其中引用了很多其他的問及愛你，比如images ,css js檔案。瀏覽器會自動再次傳送request 去獲取css檔案或者js檔案。

url是uniform redource locator的簡寫，為統一資源定位符

而乙個url由以下的幾個部分構成

scheme://host:port/path/?query-string=***&anchor

21天打造分布式爬蟲 requests庫（二）

簡單使用 import requests response requests.get text返回的是unicode的字串，可能會出現亂碼情況 print response.text content返回的是位元組，需要解碼 print response.content.decode utf 8 pr...

21天打造分布式爬蟲 urllib庫（一）

encoding utf 8 from urllib import request res request.urlopen print res.readlines urlopen的引數 def urlopen url,data none,timeout socket.global default t...

爬蟲分布式爬蟲

爬蟲的本質很多搞爬蟲的總愛吹噓分布式爬蟲，彷彿只有分布式才有逼格，不是分布式簡直不配叫爬蟲，這是一種很膚淺的思想。分布式只是提高爬蟲功能和效率的乙個環節而已，它從來不是爬蟲的本質東西。爬蟲的本質是網路請求和資料處理，如何穩定地訪問網頁拿到資料，如何精準地提取出高質量的資料才是核心問題。分布式爬蟲只...

21天pyhton分布式爬蟲 爬蟲基礎2

21天打造分布式爬蟲 requests庫（二）

21天打造分布式爬蟲 urllib庫（一）

爬蟲 分布式爬蟲

相關推薦

21天pyhton分布式爬蟲爬蟲基礎2

爬蟲分布式爬蟲