0. workon scrapy_py3 (進入python虛擬環境)
1. cd指定目錄
2. scrapy startproject adilcrawler
3. cd 到專案adilcrawler下,執行scrapy genspider thousandpic www.58pic.com
4. cd spiders資料夾中, 編輯檔案thousandpic.py。
5. 啟動爬蟲 scrapy crawl thousandpic (如果報錯 builtins.modulenotfounderror: no module named '_sqlite3')
處理方法:
> 安裝 ./configure --prefix=/usr/local/sqlite && make && sudo make install
> cd python-3.6.10
> vi setup.py 新增如圖兩句。
> 重新編譯安裝python包 ./configure --enable-loadable-sqlite-extensions && make && sudo make install
> 在python虛擬環境scrapy_py3中,如圖,執行python -> import sqlite3 不報錯,說明解決問題了。
> 啟動爬蟲 scrapy crawl thousandpic 即可成功。
Python Scrapy爬蟲簡單使用
scrapy startproject spidername scrapy shell 名 除錯命令可直接進行css和xpath的除錯 成功執行命令之後可使用 response.xpath xpath表示式 獲取所需的內容。說明 xpath 是一門在 xml 文件中查詢資訊的語言 表示式描述 例項n...
Python Scrapy爬蟲框架安裝
pip install d twisted 20.3 0 cp38 cp38 win32.whl 3 到這裡在使用pip install scrapy一般都可以成功了 pip install scrapy4 如果第3步任然失敗,可以將scrap依賴的庫lxml pyopenssl pywin32先分...
python Scrapy框架爬蟲入門學習
改寫parse 方法,對response變數包含的內容解析。scrapy 提供的 feed exports 可以輕鬆將抓取結果輸出。支援輸出格式 json csv xml pickle marshal 等,還支援 ftp s3 等遠端輸出。scrapy crawl spi o spi.json sc...