爬取騰訊招聘資訊存入mongodb資料庫

2021-08-29 09:49:44 字數 1293 閱讀 3828

import requests

from lxml import etree

import time

import pymongo

import random

class spidertencent(object):

def __init__(self):

"""初始化url

網頁頁碼下標位址

爬蟲控制開關

"""self.url = ""

self.index = 0

self.switch = true

self.tencent_data = # 建立乙個列表用來儲存tencent招聘資訊

def con_mongodb(self):

"""建立mongodb物件

連線mongodb

"""client = pymongo.mongoclient(host="localhost", port=27017)

db = client.py3

collection = db.tencent

for data in self.tencent_data:

collection.insert(data)

print("已將資料全部存入到mongodb中!")

def get_html(self, url):

"""載入html頁面,並解析為xml文件

"""headers_list = [,,

# 拼接成字典

print(info_list)

print("正在獲取資料" + "-" * 10)

def start_switch(self):

"""開啟控制開關

"""while self.switch:

tencent_url = self.url + str(self.index) # 拼接url位址

self.load_page(tencent_url)

time.sleep(5)

if self.index < 2500: # 判斷是否到了最後一頁

self.index += 10

else:

self.switch = false

self.con_mongodb() # 將資料存到mongodb中

print("程式結束")

if __name__ == '__main__':

tencent = spidertencent()

tencent.start_switch()

關於如何爬取騰訊招聘資訊

如何使用爬蟲 import requests,json,time,random class tencentspider object def init self self.headers self.one url cityid bgids productid categoryid parentcat...

Scrapy實踐 爬取騰訊社會招聘資訊(文字爬取)

注 爬取後的資訊將以json格式儲存,並將檔案命名為 recruit.json 可用notepad 開啟。coding utf 8 import scrapy class txhritem scrapy.item 職位名稱 positionname scrapy.field 職位類別 positio...

python爬蟲爬取騰訊網招聘資訊

話不多說,直接上 from bs4 import beautifulsoup import urllib2 import json 使用了json格式儲存 deftengxun detail,num url detail position.php?start 0 a request urllib2....