簡要:
scrapy的安裝
# 1)pip install scrapy -i 國內源)
一步到位
# 2) 報錯1: building 'twisted.test.raiser' extension
# error: microsoft visual c++ 14.0 is required. get it with "microsoft visual c++
# build tools":
# 解決1
#
# twisted‑20.3.0‑cp37‑cp37m‑win_amd64.whl
# cp是你的python版本
# amd是你的作業系統的版本
# 切記安裝完twisted 再次安裝scrapy
pip install scrapy -i
# 3) 報錯2:提示python -m pip install --upgrade pip
# 解決2 執行python -m pip install --upgrade pip
# 4) 報錯3 win32的錯誤
# 解決3 pip install pypiwin32
# 5)使用 anaconda
scrapy建立專案
cmd 到專案資料夾中
或者直接拖入
如果返回沒有許可權,使用管理員執行cmd
1.建立scrapy專案:
終端輸入 scrapy startproject 專案名稱
scrapy_baidu\下的資料夾
2.專案組成:
spiders
__init__.py
自定義的爬蟲檔案.py —>由我們自己建立,是實現爬蟲核心功能的檔案
__init__.py
items.py —>定義資料結構的地方,是乙個繼承自scrapy.item的類
middlewares.py —>中介軟體 **
預設是300優先順序,值越小優先順序越高(1‐1000)
settings.py —>配置檔案 比如:是否遵守robots協議,user‐agent定義等
3.建立爬蟲檔案:
1)跳轉到spiders資料夾 cd 目錄名字/目錄名字/spiders
2)scrapy genspider 爬蟲名字 網頁的網域名稱
爬蟲檔案的基本組成:
繼承scrapy.spider類
name = 'baidu' —> 執行爬蟲檔案時使用的名字
allowed_domains —> 爬蟲允許的網域名稱,在爬取的時候,如果不是此網域名稱之下的
url,會被過濾掉
start_urls —> 宣告了爬蟲的起始位址,可以寫多個url,一般是乙個
parse(self, response) —> 解析資料的**函式
response.text —> 響應的是字串
response.body —> 響應的是二進位制檔案
response.xpath()—> xpath方法的返回值型別是selector列表
extract() —> 提取的是selector物件的是data
extract_first() —> 提取的是selector列表中的第乙個資料
4.執行爬蟲檔案:scrapy crawl baidu
scrapy crawl 爬蟲名稱
注意:應在spiders資料夾內執行
#爬蟲的名字 用於執行爬蟲的時候 使用的值
允許訪問的網域名稱
allowed_domains = ['
']#起始的url位址 指的是第一次要訪問的網域名稱
#start_urls 是在allowed_domains的前面新增乙個http://
#在 allowed_domains的後面新增乙個/
start_urls = ['
/']#是執行了start_urls之後 執行的方法 方法中的response 就是返回的那個物件
#相當於 response = urllib.request.urlopen()
#response = requests.get()
defparse(self, response):
print('
你好世界
')
scrapy 安裝 安裝scrapy時出錯
python3環境下安裝scrapy 環境 win7,win10 python 3.5.2 1.首先開啟anaconda prompt 執行命令 pip install scrapy 若未出錯,表示安裝成功,鍵入以下命令測試即可 python 進入python環境 再鍵入 import scrapy...
scrapy(一)scrapy 安裝問題
pip install scrapy 注 若出現以下安裝錯誤 building twisted.test.raiser extension error microsoft visual c 14.0 is required.get it with microsoft visual c build t...
scrapy 安裝步驟
參考 1.安裝python 2.安裝setuptools 或者 pip ubuntu linux sudo apt get install python pip 解壓後進入資料夾執行 python setup.py install 3.安裝lxml lxml是一種使用 python 編寫的庫,可以迅...