Python爬蟲知識點四 scrapy框架

2021-08-11 09:34:58 字數 1537 閱讀 2990

一。scrapy結構資料

解釋:1.名詞解析:

2.具體解析

綠線是資料流向

二。初始化爬蟲框架  scrapy

命令: scrapy startproject qqnews

ps:真正的專案是在spiders裡面寫入的

三。scrapy元件spider

標準專案結構例項:

1.items結構:定義變數,根據不同種資料結構定義

2.spider結構中引入item裡面,並作填充item

3。pipline去清洗,驗證,存入資料庫,過濾等等 後續處理

item pipeline常用場景

 清理html資料

 驗證被抓取的資料(檢查item是否包含某些字段)

 重複性檢查(然後丟棄)

 將抓取的資料儲存到資料庫中

4.scrapy元件item pipeline

經常會實現以下的方法:

 open_spider(self, spider) 蜘蛛開啟的時執行

 close_spider(self, spider) 蜘蛛關閉時執行

 from_crawler(cls, crawler) 可訪問核心元件比如配置和

訊號,並註冊鉤子函式到scrapy中

pipeline真正處理邏輯

定義乙個python類,實現方法process_item(self, item,

spider)即可,返回乙個字典或item,或者丟擲dropitem

異常丟棄這個item。

5.settings中定義哪種型別的pipeline

Python爬蟲知識點一

一。入門知識 1.1.http簡介 uri和url的區別 uri強調的是資源,而url強調的是資源的位置。1.2常用請求型別 options 返回伺服器針對特定資源所支援的http請求方法。head 向伺服器索要與get請求相一致的響應,只不過響應體將不會被返回。get 向特定資源發出請求 post...

Python爬蟲知識點總結

模擬瀏覽器傳送請求,獲取響應 需要根據url位址對應的響應為準進行資料的提取 response.content bytes python3 的分類 高匿名 不知道在使用 匿名 知道在使用 不知道真實ip 透明 對方知道真實的ip if 條件成立,if前面的結果賦值給to,否則else後面的結果賦值給...

爬蟲知識點(xpath)

xpath xml path language 是一門在 xml 文件中查詢資訊的語言,可用來在 xml 文件中對元素和屬性進行遍歷。w3school官方文件 開源的xpath表示式編輯工具 xmlquire xml格式檔案可用 chrome外掛程式 xpath helper firefox外掛程式...