# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import linkextractor
from scrapy.spiders import crawlspider, rule
from day12.items import lagouitem
class lagouspider(crawlspider):
name = 'lagou'
allowed_domains = ['lagou.com']
start_urls = ['']
rules = (
# linkextractor 是需要過濾出來的url的正規表示式
# 過濾好的正規表示式會呼叫callback解析頁面的過程
# follow=true 就表示需要獲取這個頁面內的鏈結
# false 不再當前頁面尋找url繼續處理
print('當前為列表頁')
# i = {}
#i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()
#i['name'] = response.xpath('//div[@id="name"]').extract()
#i['description'] = response.xpath('//div[@id="description"]').extract()
# return i
def parse_detail(self,response):
print('當前為詳情頁')
title = response.xpath('//span[@class="name"]/text()').extract_first()
print(title)
salary = response.xpath('//span[@class="salary"]/text()').eatract_first()
print(salary)
company = response.xpath('//div[@class="company"]/text()').extract_first()
print(company)
advantage = response.xpath('//dd[@class="job-advantage"]//text()').extract()
advantage = ''.join(advantage)
print(advantage)
job_bt = response.xpath('//dd[class="job_bt"]//text()').extract()
job_bt = ''.join(job_bt)
print(job_bt)
item = lagouitem()
item['title'] = title
item['salary'] = salary
item['company'] = company
item['advantage'] = advantage
item['job_bt'] = job_bt
return item
使用selenium爬拉勾網資料
usr bin env python encoding utf 8 description 使用selenium爬拉勾網資料 from selenium import webdriver from selenium.webdriver.support.ui import webdriverwait ...
Python爬取拉勾網招聘資訊
最近自學研究爬蟲,特找個地方記錄一下 就來到了51cto先測試一下。第一次發帖不太會。先貼個 首先開啟拉勾網首頁,然後在搜尋框輸入關鍵字python。開啟抓包工具。因為我的是mac os,所以用的自帶的safari瀏覽器的開啟時間線錄製。通過抓取post方法,可以看到完整url 然後可以發現post...
拉勾網職位資料爬取 按公司規模爬取
全部的 見我的github 這裡改進了一下之前文章 拉勾網職位資料爬取,由於拉勾網最多隻會顯示30頁的職位資訊,為了獲取更多的職位資訊,就要分類爬取。由於北京的python職位很多,超過了30頁的部分就不顯示了,我為了能夠比較全的爬取資料,就進行了分類爬取。這裡我選擇公司規模這個類別 小於15人 1...