爬拉勾網並進行視覺化分析

2021-08-26 12:04:23 字數 1019 閱讀 1983

爬取動態網頁-拉勾網:

拉勾網通過ajax後台資料動態載入。爬取『爬蟲』崗位的關鍵字,並存入到本地mongodb中,通過pandas讀取爬取的崗位資料視覺化展示。

**加入了反爬cookies,需攜帶cookies才返回需要的資料,需登入後獲取cookies傳送post請求。

import requests

import json

import time,pymongo

mongo_url='localhost'

mongo_db='lagou'

mongo_table='爬蟲職位'

client=pymongo.mongoclient(mongo_url)

db=client[mongo_db]

header=

def get_info(url):

for x in range(1, 30):

if (x == 1):

y = 'true'

else:

y = 'false'

params =

try:

html = requests.post(url, data=params, headers=header)

json_data = json.loads(html.text)

results = json_data['content']['positionresult']['result']

for result in results:

infos =

print(infos)

db[mongo_table].insert_one(infos)

time.sleep(1)

except requests.exceptions.connectionerror:

pass

if __name__ == '__main__':

url=''

#url = ''

get_info(url)

視覺化分析四

視覺化分析四 一 今日內容 程式設計,在乙個子圖系統中,用兩個水平排列的折線型子圖畫出m市和n市 2016年1 至3月的上映電影的票房總收入趨勢,要求將輸出的完整子圖儲存成影象檔案 ans0304.jpg 程式源 儲存成 ans0304.py,要求 左子圖為m市票房總收入趨勢,右子圖為 n市票房總收...

python 爬取疫情資料並進行視覺化

課題 爬取疫情資料 進行視覺化 第一步 爬蟲爬取疫情資料 第二步 實現資料的視覺化 import time import json import requests import pandas as pd url r int time.time 1000 html requests.get url h...

實時爬取疫情動態變化並進行視覺化展示

一 實時爬取疫情的動態變化 上次的中國的疫情視覺化來自已有的資料庫表裡的資料,不是最新的,因此這次我們要做的就是實時的爬取疫情資訊 三步走 第一步 獲取網頁 通過requests的headers偽裝網頁訪問,獲取網頁 第二步 提取我們想要的資料 發現在該網頁裡的script裡id getareast...