生成資料夾在cmd中執行scrapy startproject doubantest(後跟資料夾名字)
***\doubantest\main.py(新建)#encoding=utf-8***\doubantest\doubantest\spiders\spider.py(新建)from scrapy import cmdline
cmdline.execute("scrapy crawl doubantest".split())
#使用scrapy裡面負責執行windows命令的乙個類,執行scrapy crawl doubantest,這個命令是爬蟲執行,這與
# 平常的python程式不一樣,之前執行程式是使用python,然後是這個程式的名字,
#encoding=utf-8(生成的)settings.py加上#-*- coding:utf-8 -*-
#scrapy生成乙個project,然後爬取網頁
# from scrapy.contrib.spiders import crawlspider
from scrapy.spiders import crawlspider
######user-agent要加在settings.py檔案中
# #讓**認為瀏覽器在訪問
# html = requests.get('',headers = hea)
class douban(crawlspider):
name = "doubantest"
start_urls = ['']
# start_urls = ['']
def
parse(self
,response):
print response.body
# print response.url
# a = response.url
# b = 1
scrapy 爬蟲基礎
scrapy是python開發的乙個快速 高層次的螢幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的資料。scrapy用途廣泛,可以用於資料探勘 監測和自動化測試。安裝完成後,在自定義目錄下輸入 scrapy startproject project name 建立新爬蟲專案 scr...
Python爬蟲 Scrapy基礎
依照順序安裝如下依賴庫,如下 wheel pip install wheel lxml pyopenssl twisted pywin32 220 scrapy pip install scrapy 安裝成功後,通過在cmd的指定路徑下輸入 scrapy startproject hello可以在當...
爬蟲基礎4 框架Scrapy
scrapy是乙個為了爬取 資料,提取結構性資料而編寫的應用框架。其可以應用在資料探勘,資訊處理或儲存歷史資料等一系列的程式中。其最初是為了頁面抓取 更確切來說,網路抓取 所設計的,也可以應用在獲取api所返回的資料 例如 amazon associates web services 或者通用的網路...