如果我們直接發起請求會返回以下錯誤結果:
所以需要在headers
中設定referer
import random
import time
import requests
from fake_useragent import useragent
def get_rel_link(cont_id: str):
url = ''
param =
headers =
res = requests.get(url=url, headers=headers, params=param)
vedio_info = res.json().get('videoinfo')
faka_vedio_url = vedio_info.get('videos').get('srcurl')
# 分割
temp1 = faka_vedio_url.split('-', 1)
# 前部分翻轉
temp2 = ''.join(reversed(temp1[0]))
# 翻轉後以'/'切割再翻轉回來找到假id
fake_cont_id = ''.join(reversed(temp2.split('/', 1)[0]))
rel_vedio_url = faka_vedio_url.replace(fake_cont_id, 'cont-'+cont_id)
return rel_vedio_url
def download_vedio(cont_id: str, rel_vedio_url: str):
page_content = requests.get(rel_vedio_url).content
fp.write(page_content)
if __name__ == '__main__':
start_time = time.time()
rel_vedio_url = get_rel_link(cont_id=cont_id)
download_vedio(cont_id, rel_vedio_url)
end_time = time.time()
防盜煉python Python爬蟲學習指南
1,基礎篇 2,高階篇 3,高階篇 python 基礎是學習python爬蟲不可少的abc,爬蟲簡單的理解,就是通過程式模擬人操作網路傳送請求,獲取資料返回,清洗,篩選,整理出有用的資料,結構化儲存資料,方便資料的瀏覽,計算,視覺化,最終實現數字的描述型價值與 型價值 基礎庫urllib,urlll...
php簡單防盜煉處理
還有一種防盜煉就是配置apache和在伺服器配置.htaccess來實現防盜煉。首先在apache找到 loadmodule rewrite module modules mod rewrite.so 把前面的注釋 去掉,然後在windows下建立乙個txt文件,另存為之後改名字為.htaccess...
Python爬蟲之SSL認證處理
當我們爬取12306的時候,會彈出乙個視窗,顯示連線不是私密連線,這裡就是ca機構認證,每次訪問的時候都會出現證書頁面錯誤 我們直接寫 import request import requests response requests.get print response.status code 執行...