Python爬蟲學習 一 12306餘票資訊爬取

2021-08-14 00:26:09 字數 747 閱讀 5084

1.12306有反爬取機制,餘票資訊是在網頁就緒以後非同步載入出來的,首先我們可以開啟谷歌瀏覽器找到,找到中間請求的url,例如餘票檢索按鈕單擊的時候

由上圖可知,餘票資訊是放在result裡面的

2.取得這些資料

req = urllib.request.request(html)

req.add_header('user-agent'

, html = urllib.request.urlopen(req).read()

aaa = json.loads(html)

result = aaa['data']['result']

for i in getlist(html):

info = i.split('|')

print('車次:%s' % (info[3]))

print('出發時間 :%s' % (info[8]))

print('到達時間 :%s' % (info[9]))

print('硬臥   :%s' % (info[28]))

print('二等座  :%s' % (info[30]))

print('-----------------------')

再解析出來就ok了

原始碼已經上傳到csdn上面了,

python 爬蟲學習一

爬取目標 為aspx 使用到了 viewstate eventvalidation cookie來驗證。使用beautifulsoup來解析網頁內容。encoding utf 8 from bs4 import beautifulsoup import urllib import urllib2 d...

python爬蟲學習(一)

簡單例子 抓取網頁全部內容後,根據正規表示式,獲取符合條件的字串列表 from urllib import request 正規表示式 import re url 讀取並解碼,針對中文 編碼是encode response request.urlopen url read decode print ...

python爬蟲學習經歷一

感謝csdn 博主 請叫我汪海 1.url的格式由三部分組成 第一部分是協議 或稱為服務方式 第二部分是存有該資源的主機ip位址 有時也包括埠號 第三部分是主機資源的具體位址,如目錄和檔名等。第一部分和第二部分用 符號隔開,第二部分和第三部分用 符號隔開。第一部分和第二部分是不可缺少的,第三部分有時...