(一)實時爬取疫情的動態變化
上次的中國的疫情視覺化來自已有的資料庫表裡的資料,不是最新的,因此這次我們要做的就是實時的爬取疫情資訊
三步走:
第一步:獲取網頁
通過requests的headers偽裝網頁訪問,獲取網頁**
第二步:提取我們想要的資料
發現在該網頁裡的script裡id="getareastat"裡面有我們想要的資料,然後我們通過beautifulsoup對其進行爬取,爬取到後轉化為字串,通過字元轉擷取到我們想到的資料,將他們轉化成json格式,然後建立兩個列表,乙個儲存省份,另乙個儲存城市資料。
soup = beautifulsoup(content, 'html.parser')
lista = soup.find_all(name='script',attrs=)
account = str(lista)
messages = account[52:-21]
messages_json = json.loads(messages)
valueslist =
citylist =
資料的儲存
第三步:儲存資料到mysql
首先在表中查詢當前表中一共有多少條資料,然後再進行插入,這樣不會出現id重複。這樣每天都會更新資料庫裡的資訊並且還會儲存昨天的資訊
這樣在進行視覺化時資料量將會更多,更加具有可比性。
總的**:
日期開始時間
結束時間
中斷時間
淨時間活動
備註3/10
15:35
16:00025
安裝pycharm,配置環境
喝水3/10
16:10
17:00050
分析網頁資料,學習爬蟲知識
3/10
17:05
18:20
1560
學習連線資料庫,將資料分析並匯入到mysql裡
喝水,上廁所
3/10
18:30
18:45015
將資料庫裡的資料與之間的web聯絡,構成實時視覺化資料顯示
缺陷記錄日誌
日期編號
型別引入階段
排除階段
修復階段
修復缺陷
3/10
1邏輯問題
編碼執行
10分鐘
描述:匯入到資料庫表裡的id號碼重複
3/10
2邏輯問題
編碼執行
5min
描述:建立資料庫與web視覺化時,資料全部匯入進去,導致柱狀圖容不下顯示出錯
總共用時:150分鐘,**量80行左右
python 爬取疫情資料並進行視覺化
課題 爬取疫情資料 進行視覺化 第一步 爬蟲爬取疫情資料 第二步 實現資料的視覺化 import time import json import requests import pandas as pd url r int time.time 1000 html requests.get url h...
使用Python進行疫情資料爬取
為了使用python學習爬取疫情資料,提前學習了python中的語法和各種儲存結構 dirt 若沒有這些基礎很難看懂python 更別提寫了 放入要爬的url url 設定header做乙個防爬機制 獲取response的json response requests.get url,headers ...
爬拉勾網並進行視覺化分析
爬取動態網頁 拉勾網 拉勾網通過ajax後台資料動態載入。爬取 爬蟲 崗位的關鍵字,並存入到本地mongodb中,通過pandas讀取爬取的崗位資料視覺化展示。加入了反爬cookies,需攜帶cookies才返回需要的資料,需登入後獲取cookies傳送post請求。import requests ...