爬蟲的基本流程:
模擬瀏覽器的行為,向伺服器傳送請求,獲取響應,並在響應中獲取資料。
如何模擬瀏覽器:
http協議:
ip位址有沒有被禁止。解決方案,**
響應直接重定向到登入頁面。沒有進行登入,模擬登入。
攜帶的瀏覽器的資料不對,user-agent、referer。
引數有問題:
如何傳送請求獲取響應:
requests模組。
如何在響應中提取資料:
json,json.loads
re
lxml xpath
如何儲存資料:
redis
mongodb
mysql
scrapy框架:
scrapy genspider 爬蟲名 範圍
1、繼承了scrapy類
2、有start_urls類屬性
3、預設排程器中的請求佇列及去重佇列儲存在記憶體中的
scrapy genspider -t crawl 爬蟲名 範圍
1、繼承crawlspider
2、有start_urls類屬性
3、有乙個rules的類屬性,其中包含很多的規則rule物件
4、預設排程器中的請求佇列及去重佇列儲存在記憶體中的
scrapy-redis元件:
普通爬蟲:實現增量式爬蟲
scrapy genspider 爬蟲名 範圍
1、新增4行**(redis的位址、去重類、排程器類、使用持久化)
2、繼承spider類
3、有start_urls雷屬性
4、排程器中的請求佇列及去重佇列儲存在redis中
redisspider:實現分布式爬蟲
scrapy genspider 爬蟲名 範圍
1、新增4行**(redis的位址、去重類、排程器類、使用持久化)
2、繼承redisspider類
3、有redis_key類屬性
4、排程器中的請求佇列及去重佇列儲存在redis中
rediscrawlspider:實現分布式的crawlspider
scrapy genspider -t crawl 爬蟲名 範圍
1、新增4行**(redis的位址、去重類、排程器類、使用持久化)
2、繼承rediscrawlspider類
3、有redis_key類屬性
4、有rules類屬性,其中包含很多的rule
5、排程器中的請求佇列及去重佇列儲存在redis中
flask相關知識點2
flask primary key 主鍵 autoincrement 自動增量 unique 獨特的 index 索引 nullable 可空的 default 預設 foreignkey 外來鍵 integer smilllnteger biginteger float numeric strin...
相關知識點
nweb inf uclasses uweb.xml ulib n 從httpservlet 繼承,重寫doget dopost方法 n部署web.xml n 只有乙個物件 n 第一次請求的時候被初始化,只一遍 n 初始化後先呼叫init 方法,只一遍 n 每個請求,呼叫一遍service serv...
爬蟲知識點(xpath)
xpath xml path language 是一門在 xml 文件中查詢資訊的語言,可用來在 xml 文件中對元素和屬性進行遍歷。w3school官方文件 開源的xpath表示式編輯工具 xmlquire xml格式檔案可用 chrome外掛程式 xpath helper firefox外掛程式...