scrapy的安裝
pip install scrapy #安裝
scrapy -h #測試效果
「5+2」結構:5個模組,2個中介軟體
使用者需要編寫的模組有:spiders、item pipelines
框架解析
engine
**********
schedule
中介軟體:********** middleware
spider
item pipelines
中介軟體:spider middleware
requests庫和scrapy爬蟲的比較
requests
scrapy
頁面級爬蟲
**級爬蟲
功能庫框架
併發性考慮不足,效能較差
併發性好,效能較高
重點在於爬蟲結構
定製靈活
一般定製靈活,深度定製困難
上手十分簡單
入門稍難
scrapy爬蟲的常用命令
命令說明
格式startproject
建立乙個新工程
scrapy startproject [dir]
genspider
建立乙個爬蟲
scrapy genspider [options]
settings
獲得爬蟲配置資訊
scrapy settings [options]
crawl
執行乙個爬蟲
scrapy crawl
list
列出工程中所有爬蟲
scrapy list
shell
啟動url除錯命令列
scrapy shell [url]
scrapy爬蟲的第乙個例項
步驟1:建立乙個scrapy爬蟲工程
scrapy startproject python123demo
步驟2:在工程中產生乙個scrapy爬蟲
scrapy genspider demo python123.io
步驟4:執行爬蟲,獲取網頁
scrapy crawl demo
yield關鍵字的使用
yield:生成器
scripy爬蟲的基本使用
資料型別
request類
response類
item類
Python網路爬蟲基礎
爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張 大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。因此,使用者看到的網頁實質是由 html 構成的,爬蟲爬來的便是這 些內容,通過分析和過濾這些 html 實現對 文字等資源的獲取。url,即統...
Python網路爬蟲基礎 一
2.urllib和urllib2模組使用 3.requests模組使用 4.python三種網頁內容抓取方法 當瀏覽器向web伺服器發出請求時,它向伺服器傳遞了乙個資料塊,也就是請求信 息,http請求資訊由3部分組成 請求方法 uri 協議 版本 請求頭 request header 請求正文 右...
網路爬蟲基礎
0.可以新建乙個用於練習的html檔案,在瀏覽器中開啟。1.利用requests.get url 獲取網頁頁面的html檔案 import requests newsurl res requests.get newsurl 返回response物件 res.encoding utf 8 2.利用be...