爬蟲基礎-http基本原理:
uri: 統一資源標誌符
url: 是uri的子集
一般的網頁鏈結既可成為url也可稱為uri
超文字: html源**
http和https:
http: 用於從網路傳輸超文字資料到本地瀏覽器的傳輸協議。
https: http的安全版本,加入了ssl層
http的請求過程:
傳送乙個請求,**伺服器接受到這個請求後進行處理和解析
然後返回對應的響應,接著傳回給瀏覽器,瀏覽器再進行解析
請求:客戶端向服務端發出
請求方法:
get post: 在位址列輸入url並回車,這便發起了乙個get請求
get引數包含在url裡面,post則不會
get方法提交資料最多只有1024個位元組 post沒有限制
一般登入時,需要寫入使用者名稱和密碼的時候,使用post方式
請求**:
即為url
請求頭:
說明伺服器使用的附加資訊 cookie referer user-agent
請求體:
承載post請求中的表單資料
響應:響應狀態碼:
200正常
404頁面未找到
500伺服器內部錯誤
響應頭:
data: 標識響應時間
last-modified: 指定資源最後修改時間
content-encoding: 指定響應內容編碼
server: 包含伺服器的資訊
content-type: 文件型別
set-cookie: 設定cookies
expires: 指定響應過期時間
響應體:
響應的徵文資料都在相應體中(network中preview可看到網頁源**)
爬蟲基礎 HTTP基本原理
1 先了解uri和url uri的全稱uniform resource identifier即統一資源標誌符,url的全稱universal resource locator即統一資源定位符。舉例來說,如是乙個鏈結,它是乙個uri,也是乙個ur。即有這樣的乙個圖資源,我們用uri url來指定了它唯...
爬蟲基本原理
一 爬蟲是什麼?爬蟲要做的是什麼?使用者獲取網路資料的方式是 爬蟲程式要做的就是 區別在於 我們的爬蟲程式只提取網頁 中對我們有用的資料 為什麼要做爬蟲 爬蟲的價值 網際網路中最有價值的便是資料,比如天貓 的商品資訊,鏈家網的租房資訊,雪球網的 投資資訊等等,這些資料都代表了各個行業的真金 可以說,...
爬蟲基本原理
三種爬蟲方式 通用爬蟲 抓取系統重要組成部分,獲取的是整張頁面資料 聚焦爬蟲 建立在通用爬蟲之上,抓取頁面指定的區域性內容 增量式爬蟲 檢測 資料更新的情況,只抓取更新出來的資料 https協議 安全的超文字傳輸協議 證書秘鑰加密 請求頭 響應頭 加密方式 傳送請求 獲取響應內容 解析內容 儲存資料...