import requests
from lxml import etree
import time
import pymongo
import random
class spidertencent(object):
def __init__(self):
"""初始化url
網頁頁碼下標位址
爬蟲控制開關
"""self.url = ""
self.index = 0
self.switch = true
self.tencent_data = # 建立乙個列表用來儲存tencent招聘資訊
def con_mongodb(self):
"""建立mongodb物件
連線mongodb
"""client = pymongo.mongoclient(host="localhost", port=27017)
db = client.py3
collection = db.tencent
for data in self.tencent_data:
collection.insert(data)
print("已將資料全部存入到mongodb中!")
def get_html(self, url):
"""載入html頁面,並解析為xml文件
"""headers_list = [,,
# 拼接成字典
print(info_list)
print("正在獲取資料" + "-" * 10)
def start_switch(self):
"""開啟控制開關
"""while self.switch:
tencent_url = self.url + str(self.index) # 拼接url位址
self.load_page(tencent_url)
time.sleep(5)
if self.index < 2500: # 判斷是否到了最後一頁
self.index += 10
else:
self.switch = false
self.con_mongodb() # 將資料存到mongodb中
print("程式結束")
if __name__ == '__main__':
tencent = spidertencent()
tencent.start_switch()
關於如何爬取騰訊招聘資訊
如何使用爬蟲 import requests,json,time,random class tencentspider object def init self self.headers self.one url cityid bgids productid categoryid parentcat...
Scrapy實踐 爬取騰訊社會招聘資訊(文字爬取)
注 爬取後的資訊將以json格式儲存,並將檔案命名為 recruit.json 可用notepad 開啟。coding utf 8 import scrapy class txhritem scrapy.item 職位名稱 positionname scrapy.field 職位類別 positio...
python爬蟲爬取騰訊網招聘資訊
話不多說,直接上 from bs4 import beautifulsoup import urllib2 import json 使用了json格式儲存 deftengxun detail,num url detail position.php?start 0 a request urllib2....