import requests
import time
import numpy as np
import pandas as pd
# 標頭檔案
headers =
# **ip
proxies =
# 資料集合
infos =
# 基礎鏈結
url = ''
# 需求鏈結
base_url = 'start=300&pagesize=60&cityid=489&workexperience=-1&education=-1&companytype=-1&employmenttype=-1&jobwelfaretag=-1&kw=資料分析師&kt=3'
# 翻頁 看pagesize可知 頁碼總數有60頁
for i in range(1, 61):
print(i)
# 休眠一段時間
time.sleep(np.random.rand()*15)
# 需要的引數
data =
# 真實鏈結
real_url = url + base_url
# 第一次忘記加上data
response = requests.get(real_url, headers=headers, proxies=proxies, data=data)
# 資料json化
html = response.json()
# 找到資訊結點
results = html['data']['results']
for result in results:
# 迴圈福利
welfares = result['welfare']
base_welfare =
try:
for welfare in welfares:
except exception as e:
print(e)
print('這家公司沒有福利')
# 轉化資料
ddata = pd.dataframe(infos)
# 儲存為csv檔案
ddata.to_csv('zhilian.csv', index=false, encoding='gb18030')
python爬蟲 scrapy爬取傳智播客教師資訊
輕鬆獲取html元素的xpath 開啟 關閉控制台 ctrl shift鍵 x 參考 介紹一款chrome爬蟲網頁解析工具 xpath helper 建立工程 scrapy startproject myspider 建立爬蟲 scrapy genspider itcast itcast.cn 檢視...
python爬蟲之JS鏈結跳轉內容爬取
目標 民政資料 行政區劃 即 http article sj xzqh 2019 2 目標 抓取最新中華人民共和國縣以上行政區劃 實現步驟 特點 1 最新的在上面 2 命名格式 2019年x月中華人民共和國縣以上行政區劃 實現 0 正則匹配title中包含這個字串的鏈結 if re.findall ...
簡單的爬蟲爬取文章
我們會用一些簡單的爬蟲去爬取 等,那麼在別人的 中我們的應選擇對應的標題等資料作為爬取的內容標桿 如以下 模擬瀏覽器發請求 connection connect jsoup.connect document doc connect.get elements select doc.select lis...