寫在前面的話:最近重新學了一下scrapy框架,之前沒學好,現在總結一下…以便以後重灌不需要重新找資料
需要三個庫 lxml, twist, pywin32 一般前兩個都有
如果有問題輸入下面這句
1.items.py
存放資料模型
三個方法最常用
注意啟用pipline,在setting.py
中設定
2.middlewares.py
存放各種中介軟體的檔案
3.pipelines.py
儲存
4.setting.py
配置資訊
robotstxt_obey = false 肯定不服從唄
headers 新增 user-agent
item_piplines
response 是乙個htmlresponse
物件,可以用xpath
提取資料,提取出來需要用get()
或getall()
獲取用yield
返回,或者用列表儲存
再返回
1. jsonitemexporter
每次把資料新增到記憶體中,最後統一寫到磁碟裡。最後儲存的是乙個列表,滿足json規則,可以直接轉換為dataframe型別進行資料分析,便於操作。劣勢在於資料量越大,記憶體消耗越嚴重。
2. jsonlinesitemexporter
每次呼叫export_item()
時儲存item到硬碟,優勢在於處理資料直接儲存到硬碟,不占用記憶體,資料也較安全。劣勢在於每個字典是一行,檔案不滿足json規則。
命令:scrapy startproject -t crawl name需要使用
rule
和linkextracter
。決定爬蟲的根本設定
allow:設定規則的方法,限制想要的url, 用正則表達
follow:爬取當前頁面,滿足allow,且設定為true則繼續爬取, 否則設定為false
from scrapy.spiders import crawlspider
繼承的是crawlspider
這個類
可以方便的爬取正則規定的url。
Python之scrapy框架爬蟲
scrapy命令詳解 可能是如今最全最簡單的scrapy命令解釋 明天上班,又要爬 現在每天做的工作有50 的時間爬 40 的時間清理資料,10 寫報告。若想自學資料分析,側重點很重要,我當初把大部分經歷放在了python的pandas numpymatplotlib上面,其他時間一部分放在sql身...
scrapy爬蟲框架之ImagePipeline
item pipeline item在spider中獲取後,將傳送到item pipeline中,執行對item的後續處理。每個item pipeline元件實現了簡單方法,它們接收item並執行一些操作,決定丟棄item還是讓其通過pipeline。item pipeline的作用 當然,你也可以...
python爬蟲框架之Scrapy
scrapy 是乙個爬蟲框架,提取結構性的資料。其可以應用在資料探勘,資訊處理等方面。提供了許多的爬蟲的基類,幫我們更簡便使用爬蟲。基於twisted 準備步驟 首先安裝依賴庫twisted 在這個 下面去尋找符合你的python版本和系統版本的twisted pip install 依賴庫的路徑 ...