# 爬蟲網路請求方式:urllib(模組), requests(庫), scrapy, pyspider(框架)# 爬蟲資料提取方式:正規表示式, bs4, lxml, xpath, css
哪種方法都可以用,可以根據實際情況選用方式
爬取靜態頁面
比較好爬取,一般的措施是cookie中登入資訊,或者cookie中有頁面的跳轉資訊
ip的限制
針對措施
github中搜尋proxy_pool-master cookiespool-master
第乙個是**池 會從****上爬取可用的ip,使用方法也說明了
第二個是cookies池
根據情況使用相應的策略
驗證碼方案
截圖驗證碼,將傳到雲打碼上,會返回答案 盡量不要出現驗證碼
爬取動態網頁
json介面資料 直接訪問介面
selenium 自動化測試框架
Python爬蟲(一) 了解爬蟲
爬蟲即網路爬蟲,即將網上的資源抓取下來。比如在抓取乙個網頁,在這個網中發現一條道路,這個道路就是指向網頁的超連結那就可以抓到該網的資源 瀏覽網頁的過程其實就是使用者輸入 之後,經過dns伺服器,找到伺服器主機,向伺服器發出乙個請求,伺服器經過解析之後,傳送給使用者的瀏覽器html,js,css等檔案...
爬蟲入門 01 爬蟲基礎了解
爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的乙隻蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。...
Python爬蟲入門(2) 爬蟲基礎了解
爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。...