爬蟲學習總結

1:接觸的爬蟲模組

urllib ,request,selenium

2:robots協議：規定網頁資料那些資料是否能爬去

--requests模組沒有語法對該協議生效

--scrapy中有對該協議進行生效

3:如何解析驗證碼

--驗證嗎，可以用numpy模組對進行處理。

--文字驗證碼，可以使用雲打碼平台，打碼兔等

4:解析資料方式

正則，xpath,bs4

5:抓取動態頁面

--selenium

--ajax

6:接觸的幾種反爬機制：robots,ua，封ip,驗證碼，動態資料獲取，tonken,資料加密

7:在scrapy接觸爬蟲類：spider,crawlspier,redisspider,rediscrawlspider

8:實現分布式爬蟲：redis-scrapy

redisspider,rediscrawlspider

爬蟲學習總結三

coding utf 8 import scrapy from firstspider.items import firstspideritem class tiebaspider scrapy.spider name tieba 爬蟲名爬蟲域 start urls 爬蟲起始位址 defparse...

簡單爬蟲總結

url url主要有三部分組成 1 協議，常見的協議有http,https,ftp,file 訪問本地資料夾 ed2k 電驢的專用鏈結等等。2 存放資源的伺服器的網域名稱系統 dns 主機名或者ip位址有時候包含埠號，各種傳輸協議都有預設的埠號 3 主機資源的具體位址，如目錄和檔名等注意第一...

爬蟲總結（一）

requests模組 response urllib2.urlopen 讀取html原始碼使用read方法 html response.read 1.構造request物件 get請求 url 這種request是get請求，因為沒有給data傳值，如果需要使用get方式傳參，可以把引數經過urll...

爬蟲學習總結

爬蟲學習總結三

簡單爬蟲總結

爬蟲總結（一）

相關推薦