Python爬取藍橋杯真題講解課程

環境配置

這次我們用re、requests、urllib這三個庫來提取。

構造請求頭

我們需要安裝chrome瀏覽器，進入瀏覽器 ctrl+shift+i 呼出開發者工具。接著開啟**：

後面**會用到。

請求訪問網頁

def get_html(url):
headers = 
response = requests.get(url,headers=headers)
if response.status_code == 200:
return response.text
else:
return

response = requests.get(url, headers=headers)

使用 requests 庫的 get 方法去訪問網頁，第乙個引數為**，第二個引數為請求頭，請求結果賦值給變數 response，其中裡面有很多結果、狀態響應碼、網頁原始碼、二進位制等。

response.status_code == 200

呼叫請求結果 response 中的 status_code 檢視請求狀態碼，200 代表請求成功，就返回，否則返回乙個 none，狀態碼一般有 2xx，4xx，3xx，5xx，分別代表請求成功，客戶端訪問失敗，重定向，伺服器問題。

return response.text

返回響應結果的 text，代表返回網頁 html 原始碼

獲取資料

我通過開發者工具檢查網頁原始碼，如下圖所示：

pat = ''

其中只有(.?)裡的漢字標題內容不同，(.?)內的內容會賦值給pat。

titles = re.findall(pat,str(html),re.s)
for title in titles:
title = parse.quote(title,'+')

編碼函式：quote(string, safe)

除了三個符號「_.-」不編碼，後面的引數safe是新增不編碼的字元。

批量url

chinese_num = ['一', '二', '三', '四', '五', '六']
id = ['1102','1103','1104','1105','1106','1497']
urls = ['static/coursehuifang/lnztc++a/content/第{}節{}年省賽真題詳解.html?courseid=19&dayclassid={}'
.format(num, str(i), j) for num, i, j in zip(chinese_num, range(2013, 2019),id)]
for url in urls:
url = parse.quote(url, '=/:+?&')
html = get_html(url)
get_infos(html)
time.sleep(1)

這裡主要就看每一年真題鏈結的規律，覺得麻煩的可以乙個乙個鏈結手動輸入。畢竟一共就6年真題6個鏈結。

這個zip函式，意思是把三個元素打包，可以這樣理解 zip 函式的結果是乙個列表 [(num,i,j)]，每一次迴圈的 num，i，j 一次對應元組中的元素。range函式取不到最後乙個數字所以是2019，實際只會取到2018。

完整**

# 藍橋杯課程
import re
import time
import requests
from urllib import parse
def get_html(url):
headers = 
response = requests.get(url,headers=headers)
if response.status_code == 200:
response.encoding = 'utf-8'
return response.text
else:
return
def get_infos(html):
pat = ''
# 要爬取內容的正規表示式，觀察url只有(.*?)裡的標題內容不同，pat=(.*?)。
titles = re.findall(pat,str(html),re.s)
for title in titles:
title = parse.quote(title,'+')
# quote(string, safe)，除了三個符號「_.-」不編碼，後面的引數safe是新增不編碼的字元。
print("static/coursehuifang/lnztc++c/sources/"+title)
def main():
chinese_num = ['一', '二', '三', '四', '五', '六']
id = ['1102','1103','1104','1105','1106','1497']
urls = ['static/coursehuifang/lnztc++a/content/第{}節{}年省賽真題詳解.html?courseid=19&dayclassid={}'
.format(num, str(i), j) for num, i, j in zip(chinese_num, range(2013, 2019),id)]
for url in urls:
url = parse.quote(url, '=/:+?&')
html = get_html(url)
get_infos(html)
time.sleep(1)
# if __name__ == '_main_':
if __name__ == '__main__':
main()

Python爬取藍橋杯真題講解課程

藍橋杯真題武林秘籍python講解

藍橋杯真題梅森素數python講解

藍橋杯真題取球遊戲題解

Python爬取藍橋杯真題講解課程

藍橋杯真題 武林秘籍python講解

藍橋杯真題 梅森素數python講解

藍橋杯真題 取球遊戲 題解

相關推薦

藍橋杯真題武林秘籍python講解

藍橋杯真題梅森素數python講解

藍橋杯真題取球遊戲題解