基礎爬蟲系列課程授課內容0 爬蟲的基本原理

什麼是爬蟲？

簡單地說，爬蟲就是請求**並提取資料的一種自動化程式。

爬蟲的基本流程：

1、向伺服器發起請求

通過http庫向目標站點發起請求，即傳送乙個request，請求可以包含額外的headers等資訊，等待伺服器的響應。

2、獲取響應內容

得到的內容可能是html，可以用正規表示式、網頁解析庫進行解析。可能是json，可以直接轉成josn物件進行解析，可能是二進位制資料，可以儲存或者進一步處理。

4、儲存內容

儲存形式多樣，可以儲存成文字，也可以儲存至資料庫，或者儲存成特定格式的檔案。

小白疑問：

什麼是response和request ？

request中包含哪些內容？

1、請求方式

主要是get、post兩種型別，另外還有head、put、delete、options等。

2、請求url

包含請求時的頭部資訊，如user-agent、host、cookies等資訊。

4、請求體

請求時額外攜帶的資料，如表單提交時的表單資料。

response中包含哪些內容？

1、響應狀態

有多種響應狀態，如200代表成功，301代表跳轉，404代表找不到頁面，502代表伺服器錯誤等。

2、響應頭

如內容型別、內容長度、伺服器資訊、設定cookies等等。

3、響應體

from fake_useragent import useragent
import requests
ua=useragent(
)#請求的**
url=
""#請求頭
headers=
#請求**
response=requests.get(url=url,headers=headers)
#響應體內容
print
(response.text)
#響應狀態資訊
print
(response.status_code)
#響應頭資訊
print
(response.headers)

爬蟲能抓到什麼樣的資料呢？1、網頁文字如html文件、json格式文字等。

2、檔案

)常見的解析的方式：

為什麼我們抓到的有時候和瀏覽器看到的不一樣呢？

有時候，網頁返回是js動態載入的，直接用請求庫訪問獲取到的是js**，不是渲染後的結果。

最後怎樣儲存資料呢？

爬蟲反爬蟲系列一基礎之模擬請求 2

基礎之模擬請求 2 在開發爬蟲程式前，你應該知道你需要的資料來自哪兒，以及怎麼獲取。為了更快的做到這一點，需要對http請求進行模擬進行驗證。以下是我常用的幾種方式，基本上是足夠用了。以南方航空官網為例，假如我想爬南航的機票航班資訊，那麼我會先用瀏覽器除錯一番。瀏覽器除錯用火狐瀏覽器開啟南航官網，...

python 0基礎學習筆記14 爬蟲

爬取網頁 import urllib.request 向指定的url位址發起請求，並返回伺服器響應的資料檔案物件 response urllib.request.urlopen 讀取檔案的全部內容，會把讀取到的資料賦值給乙個字串變數 data response.read decode utf 8 ...

WS00 網路爬蟲課程內容導學

20年的疫情，遇上考研調劑，各種不確定性，搞得自己很煩躁，那個時候就想著找個事情做一做。朋友圈太多的python廣告，不得不走進python折騰一番，當時過了一遍，但是，最近感覺學了之後沒有將其應用到生活當中去，就決心整理下筆記，達到鞏固目的。本文是基於python網路爬蟲與資訊提取 mooc 學習...

基礎爬蟲系列課程授課內容0 爬蟲的基本原理

爬蟲 反爬蟲 系列一 基礎之模擬請求 2

python 0基礎學習筆記14 爬蟲

WS00 網路爬蟲課程內容導學

相關推薦

爬蟲反爬蟲系列一基礎之模擬請求 2