爬蟲相關知識點(2)

2021-09-10 17:43:52 字數 1479 閱讀 7352

爬蟲的基本流程:

​    模擬瀏覽器的行為,向伺服器傳送請求,獲取響應,並在響應中獲取資料。

如何模擬瀏覽器:

​    http協議:

​        ip位址有沒有被禁止。解決方案,**

​        響應直接重定向到登入頁面。沒有進行登入,模擬登入。

​        攜帶的瀏覽器的資料不對,user-agent、referer。

​        引數有問題:

如何傳送請求獲取響應:

​    requests模組。

如何在響應中提取資料:

​    json,json.loads

​    re   

​    lxml xpath

如何儲存資料:

​    redis

​    mongodb

​    mysql

scrapy框架:

​    scrapy genspider 爬蟲名 範圍

​    1、繼承了scrapy類

​    2、有start_urls類屬性

​    3、預設排程器中的請求佇列及去重佇列儲存在記憶體中的

​    scrapy genspider -t crawl 爬蟲名 範圍

​    1、繼承crawlspider

​    2、有start_urls類屬性

​    3、有乙個rules的類屬性,其中包含很多的規則rule物件

​    4、預設排程器中的請求佇列及去重佇列儲存在記憶體中的

scrapy-redis元件:

​    普通爬蟲:實現增量式爬蟲

​    scrapy genspider 爬蟲名 範圍

​    1、新增4行**(redis的位址、去重類、排程器類、使用持久化)

​    2、繼承spider類

​    3、有start_urls雷屬性

​    4、排程器中的請求佇列及去重佇列儲存在redis中

​    redisspider:實現分布式爬蟲

​    scrapy genspider 爬蟲名 範圍

​    1、新增4行**(redis的位址、去重類、排程器類、使用持久化)

​    2、繼承redisspider類

​    3、有redis_key類屬性

​    4、排程器中的請求佇列及去重佇列儲存在redis中

​    rediscrawlspider:實現分布式的crawlspider

​    scrapy genspider -t crawl 爬蟲名 範圍

​    1、新增4行**(redis的位址、去重類、排程器類、使用持久化)

​    2、繼承rediscrawlspider類

​    3、有redis_key類屬性

​    4、有rules類屬性,其中包含很多的rule

​    5、排程器中的請求佇列及去重佇列儲存在redis中

flask相關知識點2

flask primary key 主鍵 autoincrement 自動增量 unique 獨特的 index 索引 nullable 可空的 default 預設 foreignkey 外來鍵 integer smilllnteger biginteger float numeric strin...

相關知識點

nweb inf uclasses uweb.xml ulib n 從httpservlet 繼承,重寫doget dopost方法 n部署web.xml n 只有乙個物件 n 第一次請求的時候被初始化,只一遍 n 初始化後先呼叫init 方法,只一遍 n 每個請求,呼叫一遍service serv...

爬蟲知識點(xpath)

xpath xml path language 是一門在 xml 文件中查詢資訊的語言,可用來在 xml 文件中對元素和屬性進行遍歷。w3school官方文件 開源的xpath表示式編輯工具 xmlquire xml格式檔案可用 chrome外掛程式 xpath helper firefox外掛程式...