使用pycharm的terminal終端(以下命令都是在terminal終端中執行)
- 建立乙個工程:scrapy startproject ***pro
- cd ***pro
- 在spiders子目錄中建立乙個爬蟲檔案
- scrapy genspider spidername www.***.com
- 執行工程:
- scrapy crawl spidername
使用scrapy框架進行資料解析案例
#解析:糗事百科上的段子作者名稱+段子內容
import scrapy
class
qiubaispider
(scrapy.spider)
: name =
'qiubai'
#allowed_domains = ['www.***.com']
start_urls =
['']def
parse
(self, response)
: div_list = response.xpath(
'//div[@class="col1 old-style-col1"]/div'
)for div in div_list:
# xpath返回的是列表,但是列表元素一定是selector型別的物件
# extract可以將selector物件中的data引數儲存的字串提取出來
# author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()
author = div.xpath(
'./div[1]/a[2]/h2/text()'
).extract_first(
)# 列表呼叫了extract之後,則表示將列表中的每乙個selector物件中data對應的字串提取出來
content = div.xpath(
'./a[1]/div/span/text()'
).extract(
) content =
''.join(content)
#將列表轉成字串
print
(author,content)
break
工程中在settings.py中需要修改的**如下:
# crawl responsibly by identifying yourself (and your website) on the user-agent
user_agent =
# obey robots.txt rules
robotstxt_obey =
false
log_level =
'error'
scrapy框架初識及使用
一.什麼是scrapy?二.安裝 linux pip3 install scrapywindows a.pip3 install wheel d.pip3 install pywin32 e.pip3 install scrapy三.基礎使用 1.建立專案 scrapy startproject 專...
Scrapy框架的安裝及使用
步驟1 環境準備 右擊ubuntu作業系統桌面,從彈出選單中選擇 open in terminal 命令 開啟終端。通過 cd home 切換到home目錄下。ls 檢視該目錄下的所有內容。圖1 切換目錄 mkdir scrapy 在home目錄下建立scrapy資料夾。圖2 建立資料夾 步驟2 s...
scrapy框架基本使用
進入工程目錄 建立爬蟲檔案 編寫爬蟲檔案 執行工程 allow domains 允許的網域名稱 parse self,response scrapy工程預設是遵守robots協議的,需要在配置檔案中進行操作。基於管道 3.將在爬蟲檔案中解析的資料儲存封裝到item物件中 4.將儲存了解析資料的ite...