1:接觸的爬蟲模組
urllib ,request,selenium
2:robots協議:規定網頁資料那些資料是否能爬去
--requests模組沒有語法對該協議生效
--scrapy中有對該協議進行生效
3:如何解析驗證碼
--驗證嗎,可以用numpy模組對進行處理。
--文字驗證碼,可以使用雲打碼平台,打碼兔等
4:解析資料方式
正則,xpath,bs4
5:抓取動態頁面
--selenium
--ajax
6:接觸的幾種反爬機制:robots,ua,封ip,驗證碼,動態資料獲取,tonken,資料加密
7:在scrapy接觸爬蟲類:spider,crawlspier,redisspider,rediscrawlspider
8:實現分布式爬蟲:redis-scrapy
redisspider,rediscrawlspider
爬蟲學習總結三
coding utf 8 import scrapy from firstspider.items import firstspideritem class tiebaspider scrapy.spider name tieba 爬蟲名 爬蟲域 start urls 爬蟲起始位址 defparse...
簡單爬蟲總結
url url主要有三部分組成 1 協議,常見的協議有http,https,ftp,file 訪問本地資料夾 ed2k 電驢的專用鏈結 等等。2 存放資源的伺服器的網域名稱系統 dns 主機名或者ip位址 有時候包含埠號,各種傳輸協議都有預設的埠號 3 主機資源的具體位址,如目錄和檔名等 注意 第一...
爬蟲總結(一)
requests模組 response urllib2.urlopen 讀取html原始碼使用read方法 html response.read 1.構造request物件 get請求 url 這種request是get請求,因為沒有給data傳值,如果需要使用get方式傳參,可以把引數經過urll...