網頁結構為:
在命令列下連線:
scrapy shell
演示:注意xapth與css兩種方式的區別與聯絡
# selector
response.selector.xpath(
'//title/text()'
).extract(
)response.selector.css(
'title::text'
).extract(
)# response的selector的xpath與css太常用了,所以提供了簡捷寫法:
# 文字一
response.xpath(
'//title/text()'
).extract(
)response.css(
'title::text'
).extract(
)response.selector.xpath(
"//a/text()"
).extract(
)# 文字 包括子節點
response.xpath(
"//a[1]//text()"
).extract(
)# 文字 包括子節點
response.xpath(
"string(//a[1])"
).extract(
)# 屬性
response.xpath(
'//img/@src'
).extract(
)response.css(
'img::attr(src)'
).extract(
)# 混合
response.css(
'img'
).xpath(
'@src'
).extract(
)response.xpath(
'//img'
).css(
'::attr(src)'
).extract(
)# 精確
response.xpath(
'//div[@id="images"]/a/text()'
).extract(
)response.css(
'div[id=images] a::text'
).extract(
)# 模糊
response.xpath(
'//div[contains(@id, "image")]/a/text()'
).extract(
)response.css(
'div[id*=image] a::text'
).extract(
)# 正則
response.xpath(
'//a[contains(@href, "image")]/text()'
).re(r'name:\s*(.*)'
)
參考: Mac pycharm下安裝Scrapy的問題
由於python版本原因,所以我把scrapy安裝在了python3.6的包目錄下,先安裝完預先用的其他包,經過一番努力終於安裝成功 後來發現執行scrapy startproject 仍然會報錯 command not found 但是 import scrapy卻沒有問題,經過思考發現是系統環境...
win 下scrapy的安裝
2.以管理員身份執行cmd 3.轉到python的scripts目錄下 cd c program files python36 scripts3.安裝wheel pip install wheel 4.安裝whl pip install 路徑 檔名.whl 如 pip install f scrap...
ubuntu 環境下安裝 scrapy
本人使用的是 linux 3.19.0 31 generic 36 14.04.1 ubuntu smp thu oct 8 10 21 08 utc 2015 x86 64 x86 64 x86 64 gnu linux 由於 ubuntu 已經安裝了兩個版本的 python,並且 pip 工具也...