爬蟲相關知識點（2）

爬蟲的基本流程：

模擬瀏覽器的行為，向伺服器傳送請求，獲取響應，並在響應中獲取資料。

如何模擬瀏覽器：

http協議：

ip位址有沒有被禁止。解決方案，**

響應直接重定向到登入頁面。沒有進行登入，模擬登入。

攜帶的瀏覽器的資料不對，user-agent、referer。

引數有問題：

如何傳送請求獲取響應：

requests模組。

如何在響應中提取資料：

json，json.loads

lxml xpath

如何儲存資料：

redis

mongodb

mysql

scrapy框架：

scrapy genspider 爬蟲名範圍

1、繼承了scrapy類

2、有start_urls類屬性

3、預設排程器中的請求佇列及去重佇列儲存在記憶體中的

scrapy genspider -t crawl 爬蟲名範圍

1、繼承crawlspider

2、有start_urls類屬性

3、有乙個rules的類屬性，其中包含很多的規則rule物件

4、預設排程器中的請求佇列及去重佇列儲存在記憶體中的

scrapy-redis元件：

普通爬蟲：實現增量式爬蟲

scrapy genspider 爬蟲名範圍

1、新增4行**（redis的位址、去重類、排程器類、使用持久化）

2、繼承spider類

3、有start_urls雷屬性

4、排程器中的請求佇列及去重佇列儲存在redis中

redisspider：實現分布式爬蟲

scrapy genspider 爬蟲名範圍

1、新增4行**（redis的位址、去重類、排程器類、使用持久化）

2、繼承redisspider類

3、有redis_key類屬性

4、排程器中的請求佇列及去重佇列儲存在redis中

rediscrawlspider：實現分布式的crawlspider

scrapy genspider -t crawl 爬蟲名範圍

1、新增4行**（redis的位址、去重類、排程器類、使用持久化）

2、繼承rediscrawlspider類

3、有redis_key類屬性

4、有rules類屬性，其中包含很多的rule

5、排程器中的請求佇列及去重佇列儲存在redis中

flask相關知識點2

flask primary key 主鍵 autoincrement 自動增量 unique 獨特的 index 索引 nullable 可空的 default 預設 foreignkey 外來鍵 integer smilllnteger biginteger float numeric strin...

爬蟲知識點（xpath）

xpath xml path language 是一門在 xml 文件中查詢資訊的語言，可用來在 xml 文件中對元素和屬性進行遍歷。w3school官方文件開源的xpath表示式編輯工具 xmlquire xml格式檔案可用 chrome外掛程式 xpath helper firefox外掛程式...

爬蟲相關知識點（2）

flask相關知識點2

相關知識點

爬蟲知識點（xpath）

相關推薦