爬蟲 智聯爬取 拼接鏈結的演示

2021-08-27 18:01:29 字數 1178 閱讀 7579

import requests

import time

import numpy as np

import pandas as pd

# 標頭檔案

headers =

# **ip

proxies =

# 資料集合

infos =

# 基礎鏈結

url = ''

# 需求鏈結

base_url = 'start=300&pagesize=60&cityid=489&workexperience=-1&education=-1&companytype=-1&employmenttype=-1&jobwelfaretag=-1&kw=資料分析師&kt=3'

# 翻頁 看pagesize可知 頁碼總數有60頁

for i in range(1, 61):

print(i)

# 休眠一段時間

time.sleep(np.random.rand()*15)

# 需要的引數

data =

# 真實鏈結

real_url = url + base_url

# 第一次忘記加上data

response = requests.get(real_url, headers=headers, proxies=proxies, data=data)

# 資料json化

html = response.json()

# 找到資訊結點

results = html['data']['results']

for result in results:

# 迴圈福利

welfares = result['welfare']

base_welfare =

try:

for welfare in welfares:

except exception as e:

print(e)

print('這家公司沒有福利')

# 轉化資料

ddata = pd.dataframe(infos)

# 儲存為csv檔案

ddata.to_csv('zhilian.csv', index=false, encoding='gb18030')

python爬蟲 scrapy爬取傳智播客教師資訊

輕鬆獲取html元素的xpath 開啟 關閉控制台 ctrl shift鍵 x 參考 介紹一款chrome爬蟲網頁解析工具 xpath helper 建立工程 scrapy startproject myspider 建立爬蟲 scrapy genspider itcast itcast.cn 檢視...

python爬蟲之JS鏈結跳轉內容爬取

目標 民政資料 行政區劃 即 http article sj xzqh 2019 2 目標 抓取最新中華人民共和國縣以上行政區劃 實現步驟 特點 1 最新的在上面 2 命名格式 2019年x月中華人民共和國縣以上行政區劃 實現 0 正則匹配title中包含這個字串的鏈結 if re.findall ...

簡單的爬蟲爬取文章

我們會用一些簡單的爬蟲去爬取 等,那麼在別人的 中我們的應選擇對應的標題等資料作為爬取的內容標桿 如以下 模擬瀏覽器發請求 connection connect jsoup.connect document doc connect.get elements select doc.select lis...