python
爬蟲在官網上找到英雄**的真實鏈結,檢視多個後發現字首相同,後面對應為英雄的id和**的id,**的id從00開始順序遞增,而英雄id跟網頁中的順序無關,需要找到英雄id。
並沒有在**頁面和英雄頁面的元素中找到有關英雄id的內容,所以想到有可能是通過js檔案載入進來的。通過chrome工具找到跟英雄id有關的js檔案**。
設定儲存的路徑和檔名。
通過re庫來正規表示式的處理。
通過json將字串轉成字典型別。
位址和檔名稱的拼接。
'''1. 找到路徑,獲取所有真實url
2. 設定檔名
'''import requests
import re
import json
defgetlolimages
():# 包含英雄名字和id的js檔案路徑
js_url = ""
# 獲取js檔案內容
js_content = requests.get(js_url).text
# 擷取需要的內容 .*? 代表所有內容
req = '"keys":(.*?),"data"'
# 取到的是列表,真正想要的是列表中的第乙個元素
js_want = re.findall(req, js_content)[0]
# 轉成字典形式
js_dict = json.loads(js_want)
# 獲取的真實url,並儲存到列表中
# 設定檔名稱
Python爬蟲爬取LOL所有英雄面板
獲取id defget id url headers response requests.get url url,headers headers r response.json ids jsonpath.jsonpath r,heroid print ids print 英雄的個數為 str len...
Python爬英雄聯盟lol全英雄面板
1.匯入所需模組 import requests import os 建立lol資料夾 os.mkdir lol 2.讀取js檔案,獲取英雄id hero id url response requests.get url,headers headers json list response.json...
python爬蟲 爬取英雄聯盟全英雄面板
import requests import re 1 分析目標網頁,確定爬取的url路徑,headers引數 base url headers 2 傳送請求 response requests.get base url,headers headers base data response.json...