什麼是爬蟲?
簡單地說,爬蟲就是請求**並提取資料的一種自動化程式。
爬蟲的基本流程:
1、向伺服器發起請求
通過http庫向目標站點發起請求,即傳送乙個request,請求可以包含額外的headers等資訊,等待伺服器的響應。
2、獲取響應內容
得到的內容可能是html,可以用正規表示式、網頁解析庫進行解析。可能是json,可以直接轉成josn物件進行解析,可能是二進位制資料,可以儲存或者進一步處理。
4、儲存內容
儲存形式多樣,可以儲存成文字,也可以儲存至資料庫,或者儲存成特定格式的檔案。
小白疑問:
什麼是response和request ?
request中包含哪些內容?
1、請求方式
主要是get、post兩種型別,另外還有head、put、delete、options等。
2、請求url
包含請求時的頭部資訊,如user-agent、host、cookies等資訊。
4、請求體
請求時額外攜帶的資料,如表單提交時的表單資料。
response中包含哪些內容?
1、響應狀態
有多種響應狀態,如200代表成功,301代表跳轉,404代表找不到頁面,502代表伺服器錯誤等。
2、響應頭
如內容型別、內容長度、伺服器資訊、設定cookies等等。
3、響應體
爬蟲能抓到什麼樣的資料呢?1、網頁文字如html文件、json格式文字等。from fake_useragent import useragent
import requests
ua=useragent(
)#請求的**
url=
""#請求頭
headers=
#請求**
response=requests.get(url=url,headers=headers)
#響應體內容
(response.text)
#響應狀態資訊
(response.status_code)
#響應頭資訊
(response.headers)
2、檔案
)常見的解析的方式:
為什麼我們抓到的有時候和瀏覽器看到的不一樣呢?
有時候,網頁返回是js動態載入的,直接用請求庫訪問獲取到的是js**,不是渲染後的結果。
最後怎樣儲存資料呢?
爬蟲 反爬蟲 系列一 基礎之模擬請求 2
基礎之模擬請求 2 在開發爬蟲程式前,你應該知道你需要的資料來自哪兒,以及怎麼獲取。為了更快的做到這一點,需要對http請求進行模擬進行驗證。以下是我常用的幾種方式,基本上是足夠用了。以南方航空官網為例,假如我想爬南航的機票航班資訊,那麼我會先用瀏覽器除錯一番。瀏覽器除錯 用火狐瀏覽器開啟南航官網,...
python 0基礎學習筆記14 爬蟲
爬取網頁 import urllib.request 向指定的url位址發起請求,並返回伺服器響應的資料 檔案物件 response urllib.request.urlopen 讀取檔案的全部內容,會把讀取到的資料賦值給乙個字串變數 data response.read decode utf 8 ...
WS00 網路爬蟲課程內容導學
20年的疫情,遇上考研調劑,各種不確定性,搞得自己很煩躁,那個時候就想著找個事情做一做。朋友圈太多的python廣告,不得不走進python折騰一番,當時過了一遍,但是,最近感覺學了之後沒有將其應用到生活當中去,就決心整理下筆記,達到鞏固目的。本文是基於python網路爬蟲與資訊提取 mooc 學習...