一、新建工程
scrapy
startproject shop
二、items
.py檔案**:
import scrapy
class shopitem(scrapy.item):
title = scrapy.field()
time = scrapy.field()
三、shopspider.py
檔案爬蟲**
# -*-coding:utf-8-*-
import scrapy
from shop.items import shopitem
class shopspider(scrapy.spider):
name = "shop"
allowed_domains = ["news.******x.xx.cn"]
start_urls = [""]
def parse(self,response):
item = shopitem()
item['title'] = response.xpath("//div[@class='txttotwe2']/ul/li/a/text()").extract()
item['time'] = response.xpath("//div[@class='txttotwe2']/ul/li/font/text()").extract()
yield item
四、pipelines.py
檔案**(列印出內容):
注意:如果在
shopspider.py
檔案中列印出內容則顯示的是
unicode
編碼,而在
pipelines.py
列印出來的資訊則是正常的顯示內容。
class shoppipeline(object):
def process_item(self, item, spider):
count=len(item['title'])
print 'news count: ' ,count
for i in range(0,count):
print 'biaoti: '+item['title'][i]
print 'shijian: '+item['time'][i]
return item
五、爬取顯示的結果:
root@kali:~/shop# scrapy crawl shop --nolog
news count: 40
biaoti: ***
建成國家食品安全示範城市
shijian: (2017-06-16)
biaoti: ***x
考試開始報名
……………………
…………………..
爬取新聞列表
獲取單條新聞的 標題 鏈結 時間 內容 點選次數,幷包裝成乙個函式。獲取乙個新聞列表頁的所有新聞的上述詳情,幷包裝成乙個函式。獲取所有新聞列表頁的 呼叫上述函式。完成所有校園新聞的爬取工作。完成自己所選其他主題相應資料的爬取工作。import requests import refrom bs4 i...
爬取新聞列表
獲取單條新聞的 標題 鏈結 時間 內容 點選次數,幷包裝成乙個函式。獲取乙個新聞列表頁的所有新聞的上述詳情,幷包裝成乙個函式。獲取所有新聞列表頁的 呼叫上述函式。完成所有新聞的爬取。import requests from bs4 import beautifulsoup res requests....
爬取新聞列表
import requests import re from bs4 import beautifulsoup url res requests.get url res.encoding utf 8 soup beautifulsoup res.text,html.parser n int soup...