scrapy爬蟲學習

2021-10-06 21:43:46 字數 1675 閱讀 1440

因畢設需要做資料集,學習爬蟲。

相關**:

1.目前遇到問題,中文description無法返回。

0

.print

(response.body)

解釋:xpath是從網頁返回內容裡邊去提取的,網頁返回的content和瀏覽器的element可能會有差異

1

.查詢是不是pipelines.py出問題。

defprocess_item

(self, item, spider):if

(item.get(

'link')is

notnone):

line = json.dumps(

dict

(item)

,ensure_ascii=

false)+

'\n'

self.file1.write(line)

else

: line = json.dumps(

dict

(item)

,ensure_ascii=

false)+

'\n'

self.file2.write(line)

return item

為什麼要這樣寫。link肯定是會有的。那這個是預設不返回中文表示?

2

.主體函式不懂,

defparse

(self, response)

:yield request(url=

"", meta=

, callback=self.parse1)

defparse1

(self, response)

: meta = response.meta

本文**中,

defparse

(self , response)

: relationitem_list =

list()

for table in response.xpath(

'//table[contains(@class,"wikitable")]'):

tmp =wikidatacrawleritem())

) relationitem_list[count]

['rid'

]= relationid

yield relationitem_list[count]

for url in link_list:

chrelationitem = wikidatacrawleritem(

) request = scrapy.request(url, callback=self.parse_relation_pages)

request.meta[

'item'

]= chrelationitem

rid = url.split(

":")[2

] request.meta[

'rid'

]= rid

yield request

#yield了兩次,

。看**parse中是抓取英文,parse_relation_pages是中文,兩者是如何結合?

多個

我明白了,是迭代進行的,

爬蟲scrapy學習

1 建立乙個scrapy專案 2 定義提取的item容器 3 編寫spider爬蟲,並提取item 4 編寫item pipeline 儲存提取到的item 二 具體思維導 釋 參考自 各部分元件 scrapy執行流程如下 我覺得這個解釋的比較清晰。1.引擎從排程器取出乙個url鏈結,用於抓取。4....

scrapy 爬蟲學習筆記

1.安裝scrapy pip install i 源 scrapy 2.手動建立scarpy專案 scrapy startproject 專案名稱 3.scrapy genspider jobbole blog.jobbole.com 使用自帶模板 4.除錯 修改setting檔案中obey rob...

Scrapy爬蟲框架學習

目錄 五大模組 spider itempipeline schedule engine 四個配置引數 三個物件 常用屬性 常用方法 response 常用屬性 常用方法 item 兩類中介軟體 middleware spidermiddleware 解析html,產生爬取請求和資料 流水線處理資料,...