爬蟲 大概了解下爬蟲的

2022-08-04 09:48:11 字數 501 閱讀 3275

# 爬蟲網路請求方式:urllib(模組), requests(庫), scrapy, pyspider(框架)

# 爬蟲資料提取方式:正規表示式, bs4, lxml, xpath, css

哪種方法都可以用,可以根據實際情況選用方式

爬取靜態頁面

比較好爬取,一般的措施是cookie中登入資訊,或者cookie中有頁面的跳轉資訊

ip的限制

針對措施

github中搜尋proxy_pool-master cookiespool-master

第乙個是**池 會從****上爬取可用的ip,使用方法也說明了

第二個是cookies池

根據情況使用相應的策略

驗證碼方案

截圖驗證碼,將傳到雲打碼上,會返回答案 盡量不要出現驗證碼

爬取動態網頁

json介面資料 直接訪問介面

selenium 自動化測試框架

Python爬蟲(一) 了解爬蟲

爬蟲即網路爬蟲,即將網上的資源抓取下來。比如在抓取乙個網頁,在這個網中發現一條道路,這個道路就是指向網頁的超連結那就可以抓到該網的資源 瀏覽網頁的過程其實就是使用者輸入 之後,經過dns伺服器,找到伺服器主機,向伺服器發出乙個請求,伺服器經過解析之後,傳送給使用者的瀏覽器html,js,css等檔案...

爬蟲入門 01 爬蟲基礎了解

爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的乙隻蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。...

Python爬蟲入門(2) 爬蟲基礎了解

爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。...