1.安裝scrapy
pip install -i 源 scrapy
2.手動建立scarpy專案
scrapy startproject 專案名稱
3.scrapy genspider jobbole blog.jobbole.com(使用自帶模板)
4.除錯
修改setting檔案中obey robots為flase
新建py檔案
在命令視窗中輸入
5.提取內容(有多種方法)
頁面分析內容時,注意頁面載入後f12下獲取元素的xpath和直接獲取原始碼的xpath可能不一樣,因為頁面動態載入js後可能會生成新的頁面布局。
6.shell除錯
scrapy shell **
SCRAPY 爬蟲筆記
scrapy 爬蟲筆記 第乙個scrapy 程式 首選在cmd 輸入 scrapy startproject 就是我們第乙個專案的名稱 在spiders資料夾下面建立乙個新的python檔案 import scrapy class firstspider scrapy.spider name fir...
爬蟲scrapy學習
1 建立乙個scrapy專案 2 定義提取的item容器 3 編寫spider爬蟲,並提取item 4 編寫item pipeline 儲存提取到的item 二 具體思維導 釋 參考自 各部分元件 scrapy執行流程如下 我覺得這個解釋的比較清晰。1.引擎從排程器取出乙個url鏈結,用於抓取。4....
scrapy爬蟲學習
因畢設需要做資料集,學習爬蟲。相關 1.目前遇到問題,中文description無法返回。0 print response.body 解釋 xpath是從網頁返回內容裡邊去提取的,網頁返回的content和瀏覽器的element可能會有差異1 查詢是不是pipelines.py出問題。defproc...