爬蟲基本原理（2）

請求⽹**並提取資料的⾃自動化程式

發起請求

通過http庫向⽬目標站點發起請求，即傳送⼀個request，請求可以包含額外的headers等資訊，等待伺服器響應。

獲取相應內容

解析內容

得到的內容可能是html，可以⽤用正規表示式、⽹頁解析庫進行解析。可能是json，可以直接轉為json物件解析，可能是二進位制資料，可以做儲存或者進一步的處理。

儲存資料

儲存形式多樣，可以存為⽂文字，也可以儲存至資料庫，或者儲存特定格式的檔案。

（1）瀏覽器就傳送訊息給該⽹**所在的伺服器，這個過程叫做http request。

（2）伺服器收到瀏覽器傳送的訊息後，能夠根據瀏覽器傳送訊息的內容，做相應處理，然後把訊息回傳給瀏覽器。這個過程叫做http response。

（3）瀏覽器收到伺服器的response資訊後，會對資訊進行相應處理，然後展示。

請求方式

主要有get、post兩種型別，另外還有head、put、delete、options等。

請求url

請求頭包含請求時的頭部資訊，如user-agent、host、cookies等資訊。

請求體請求時額外攜帶的資料，如表單提交時的表單資料

響應狀態

有多種響應狀態，如200代表成功、301跳轉、404找不到頁面、502伺服器錯誤

響應頭如內容型別、內容長度、伺服器資訊、設定cookie等等。

響應體最主要的部分，包含了請求資源的內容，如網頁html、二進位制資料等。

網頁文字：如html文件、json格式文字等。

其他：只要是能請求到的，都能獲取。

直接處理

json解析

正規表示式

beautifulsoup

xpath

pyquery

文字：純文字、json、xml等。

關係型資料庫：如mysql、oracle、sql server等具有結構化表結構形式儲存。

關係型資料庫：如mongodb、redis等key-value形式儲存。

一爬蟲是什麼?爬蟲要做的是什麼？使用者獲取網路資料的方式是爬蟲程式要做的就是區別在於我們的爬蟲程式只提取網頁中對我們有用的資料為什麼要做爬蟲爬蟲的價值網際網路中最有價值的便是資料，比如天貓的商品資訊，鏈家網的租房資訊，雪球網的投資資訊等等，這些資料都代表了各個行業的真金可以說，...

三種爬蟲方式通用爬蟲抓取系統重要組成部分，獲取的是整張頁面資料聚焦爬蟲建立在通用爬蟲之上，抓取頁面指定的區域性內容增量式爬蟲檢測資料更新的情況，只抓取更新出來的資料 https協議安全的超文字傳輸協議證書秘鑰加密請求頭響應頭加密方式傳送請求獲取響應內容解析內容儲存資料...

一爬蟲介紹本質，就是想傳送http請求，拿回一些頁面 json格式資料 request 處理資料，解析出有用的東西 re，bs4 儲存 mysql，檔案，cvs，redis，mongodb，es 分析 cookie池和池正向和反向正向自己，反向伺服器爬蟲運用模組 requests...