示例為pycharm terminal環境
如上scrapy shell示例返回完整html(可通過response.text檢視)如下:
示例命令
# 提取標題(提取第乙個值)
response.css(
'title::text'
).get(
)# 提取img元素的src屬性(提取列表)
response.css(
'img::attr(src)'
).getall(
)# css和xpath仍然返回selectorlist例項,可以繼續呼叫css或xpath方法
# 如下先使用css選擇器,後在css選擇器選擇結果的基礎上再使用xpath選擇器
response.css(
'img'
).xpath(
'@src'
).getall(
)# 提取img元素的src屬性(提取第乙個值)
response.css(
'img::attr(src)'
).get(
)# 提取所有鏈結的文字內容(提取列表)
response.css(
'div#images a::text'
).getall(
)response.css(
'div#images'
).xpath(
'//a//text()'
).getall(
)
執行結果
scrapy請求傳送詳解
scrapy自動傳送請求 對start urls列表中儲存的起始url進行過請求的傳送並沒有通過手動實現,但是在parse函式中還是獲取到了響應資料,這是因為爬蟲檔案中的爬蟲類繼承到了spider父類中的start requests self 這個方法,該方法就可以對start urls列表中的ur...
根據URL識別身體
url explode server request uri dir url 1 url 1 home 這會將http 變成 部落格 url結構的第二級 如果位於根目錄,它將返回 home 這是另一種方法 page server request uri page str replace page p...
scrapy 框架之post請求
通常 通過 實現對某些表單字段 如資料或是登入介面中的認證令牌等 的預填充。使用scrapy抓取網頁時,如果想要預填充或重寫像使用者名稱 使用者密碼這些表單字段,可以使用formrequest,可以使用 formrequest.from response 方法實現。formrequest類 引數 同...