爬取騰訊招聘資訊存入mongodb資料庫

import requests
from lxml import etree
import time
import pymongo
import random
class spidertencent(object):
def __init__(self):
"""初始化url
網頁頁碼下標位址
爬蟲控制開關
"""self.url = ""
self.index = 0
self.switch = true
self.tencent_data =   # 建立乙個列表用來儲存tencent招聘資訊
def con_mongodb(self):
"""建立mongodb物件
連線mongodb
"""client = pymongo.mongoclient(host="localhost", port=27017)
db = client.py3
collection = db.tencent
for data in self.tencent_data:
collection.insert(data)
print("已將資料全部存入到mongodb中！")
def get_html(self, url):
"""載入html頁面，並解析為xml文件
"""headers_list = [,,
# 拼接成字典
print(info_list)
print("正在獲取資料" + "-" * 10)
def start_switch(self):
"""開啟控制開關
"""while self.switch:
tencent_url = self.url + str(self.index)  # 拼接url位址
self.load_page(tencent_url)
time.sleep(5)
if self.index < 2500:   # 判斷是否到了最後一頁
self.index += 10
else:
self.switch = false
self.con_mongodb()  # 將資料存到mongodb中
print("程式結束")
if __name__ == '__main__':
tencent = spidertencent()
tencent.start_switch()

關於如何爬取騰訊招聘資訊

如何使用爬蟲 import requests，json，time，random class tencentspider object def init self self.headers self.one url cityid bgids productid categoryid parentcat...

Scrapy實踐爬取騰訊社會招聘資訊（文字爬取）

注爬取後的資訊將以json格式儲存，並將檔案命名為 recruit.json 可用notepad 開啟。coding utf 8 import scrapy class txhritem scrapy.item 職位名稱 positionname scrapy.field 職位類別 positio...

python爬蟲爬取騰訊網招聘資訊

話不多說，直接上 from bs4 import beautifulsoup import urllib2 import json 使用了json格式儲存 deftengxun detail,num url detail position.php?start 0 a request urllib2....

爬取騰訊招聘資訊存入mongodb資料庫

關於如何爬取騰訊招聘資訊

Scrapy實踐 爬取騰訊社會招聘資訊（文字爬取）

python爬蟲爬取騰訊網招聘資訊

相關推薦

Scrapy實踐爬取騰訊社會招聘資訊（文字爬取）