請求⽹**並提取資料的⾃自動化程式
發起請求
通過http庫向⽬目標站點發起請求,即傳送⼀個request,請求可以包含額外的headers等資訊,等待伺服器響應。
獲取相應內容
解析內容
得到的內容可能是html,可以⽤用正規表示式、⽹頁解析庫進行解析。可能是json,可以直接轉為json物件解析,可能是二進位制資料,可以做儲存或者進一步的處理。
儲存資料
儲存形式多樣,可以存為⽂文字,也可以儲存至資料庫,或者儲存特定格式的檔案。
(1)瀏覽器就傳送訊息給該⽹**所在的伺服器,這個過程叫做http request。
(2)伺服器收到瀏覽器傳送的訊息後,能夠根據瀏覽器傳送訊息的內容,做相應處理,然後把訊息回傳給瀏覽器。這個過程叫做http response。
(3)瀏覽器收到伺服器的response資訊後,會對資訊進行相應處理,然後展示。
請求方式
主要有get、post兩種型別,另外還有head、put、delete、options等。
請求url
請求頭包含請求時的頭部資訊,如user-agent、host、cookies等資訊。
請求體請求時額外攜帶的資料,如表單提交時的表單資料
響應狀態
有多種響應狀態,如200代表成功、301跳轉、404找不到頁面、502伺服器錯誤
響應頭如內容型別、內容長度、伺服器資訊、設定cookie等等。
響應體最主要的部分,包含了請求資源的內容,如網頁html、二進位制資料等。
網頁文字:如html文件、json格式文字等。
其他:只要是能請求到的,都能獲取。
直接處理
json解析
正規表示式
beautifulsoup
xpath
pyquery
文字:純文字、json、xml等。
關係型資料庫:如mysql、oracle、sql server等具有結構化表結構形式儲存。
關係型資料庫:如mongodb、redis等key-value形式儲存。
爬蟲基本原理
一 爬蟲是什麼?爬蟲要做的是什麼?使用者獲取網路資料的方式是 爬蟲程式要做的就是 區別在於 我們的爬蟲程式只提取網頁 中對我們有用的資料 為什麼要做爬蟲 爬蟲的價值 網際網路中最有價值的便是資料,比如天貓 的商品資訊,鏈家網的租房資訊,雪球網的 投資資訊等等,這些資料都代表了各個行業的真金 可以說,...
爬蟲基本原理
三種爬蟲方式 通用爬蟲 抓取系統重要組成部分,獲取的是整張頁面資料 聚焦爬蟲 建立在通用爬蟲之上,抓取頁面指定的區域性內容 增量式爬蟲 檢測 資料更新的情況,只抓取更新出來的資料 https協議 安全的超文字傳輸協議 證書秘鑰加密 請求頭 響應頭 加密方式 傳送請求 獲取響應內容 解析內容 儲存資料...
爬蟲基本原理
一 爬蟲介紹 本質,就是想 傳送http請求,拿回一些頁面 json格式資料 request 處理資料,解析出有用的東西 re,bs4 儲存 mysql,檔案,cvs,redis,mongodb,es 分析 cookie池和 池 正向 和反向 正向 自己,反向 伺服器 爬蟲運用模組 requests...