python爬蟲之防盜煉處理

如果我們直接發起請求會返回以下錯誤結果：

所以需要在headers中設定referer

import random
import time
import requests
from fake_useragent import useragent
def get_rel_link(cont_id: str):
url = ''
param = 
headers = 
res = requests.get(url=url, headers=headers, params=param)
vedio_info = res.json().get('videoinfo')
faka_vedio_url = vedio_info.get('videos').get('srcurl')
# 分割
temp1 = faka_vedio_url.split('-', 1)
# 前部分翻轉
temp2 = ''.join(reversed(temp1[0]))
# 翻轉後以'/'切割再翻轉回來找到假id
fake_cont_id = ''.join(reversed(temp2.split('/', 1)[0]))
rel_vedio_url = faka_vedio_url.replace(fake_cont_id, 'cont-'+cont_id)
return rel_vedio_url
def download_vedio(cont_id: str, rel_vedio_url: str):
page_content = requests.get(rel_vedio_url).content
fp.write(page_content)
if __name__ == '__main__':
start_time = time.time()
rel_vedio_url = get_rel_link(cont_id=cont_id)
download_vedio(cont_id, rel_vedio_url)
end_time = time.time()

防盜煉python Python爬蟲學習指南

1，基礎篇 2，高階篇 3，高階篇 python 基礎是學習python爬蟲不可少的abc，爬蟲簡單的理解，就是通過程式模擬人操作網路傳送請求，獲取資料返回，清洗，篩選，整理出有用的資料，結構化儲存資料，方便資料的瀏覽，計算，視覺化，最終實現數字的描述型價值與型價值基礎庫urllib,urlll...

php簡單防盜煉處理

還有一種防盜煉就是配置apache和在伺服器配置.htaccess來實現防盜煉。首先在apache找到 loadmodule rewrite module modules mod rewrite.so 把前面的注釋去掉，然後在windows下建立乙個txt文件，另存為之後改名字為.htaccess...

Python爬蟲之SSL認證處理

當我們爬取12306的時候，會彈出乙個視窗，顯示連線不是私密連線，這裡就是ca機構認證，每次訪問的時候都會出現證書頁面錯誤我們直接寫 import request import requests response requests.get print response.status code 執行...

python爬蟲之防盜煉處理

防盜煉python Python爬蟲學習指南

php簡單防盜煉處理

Python爬蟲之SSL認證處理

相關推薦