一。scrapy結構資料
解釋:1.名詞解析:
2.具體解析
綠線是資料流向
二。初始化爬蟲框架 scrapy
命令: scrapy startproject qqnews
ps:真正的專案是在spiders裡面寫入的
三。scrapy元件spider
標準專案結構例項:
1.items結構:定義變數,根據不同種資料結構定義
2.spider結構中引入item裡面,並作填充item
3。pipline去清洗,驗證,存入資料庫,過濾等等 後續處理
item pipeline常用場景
清理html資料
驗證被抓取的資料(檢查item是否包含某些字段)
重複性檢查(然後丟棄)
將抓取的資料儲存到資料庫中
4.scrapy元件item pipeline
經常會實現以下的方法:
open_spider(self, spider) 蜘蛛開啟的時執行
close_spider(self, spider) 蜘蛛關閉時執行
from_crawler(cls, crawler) 可訪問核心元件比如配置和
訊號,並註冊鉤子函式到scrapy中
pipeline真正處理邏輯
定義乙個python類,實現方法process_item(self, item,
spider)即可,返回乙個字典或item,或者丟擲dropitem
異常丟棄這個item。
5.settings中定義哪種型別的pipeline
Python爬蟲知識點一
一。入門知識 1.1.http簡介 uri和url的區別 uri強調的是資源,而url強調的是資源的位置。1.2常用請求型別 options 返回伺服器針對特定資源所支援的http請求方法。head 向伺服器索要與get請求相一致的響應,只不過響應體將不會被返回。get 向特定資源發出請求 post...
Python爬蟲知識點總結
模擬瀏覽器傳送請求,獲取響應 需要根據url位址對應的響應為準進行資料的提取 response.content bytes python3 的分類 高匿名 不知道在使用 匿名 知道在使用 不知道真實ip 透明 對方知道真實的ip if 條件成立,if前面的結果賦值給to,否則else後面的結果賦值給...
爬蟲知識點(xpath)
xpath xml path language 是一門在 xml 文件中查詢資訊的語言,可用來在 xml 文件中對元素和屬性進行遍歷。w3school官方文件 開源的xpath表示式編輯工具 xmlquire xml格式檔案可用 chrome外掛程式 xpath helper firefox外掛程式...