python爬蟲之防盜煉處理

2022-09-22 03:06:11 字數 1321 閱讀 5807

如果我們直接發起請求會返回以下錯誤結果:

所以需要在headers中設定referer

import random

import time

import requests

from fake_useragent import useragent

def get_rel_link(cont_id: str):

url = ''

param =

headers =

res = requests.get(url=url, headers=headers, params=param)

vedio_info = res.json().get('videoinfo')

faka_vedio_url = vedio_info.get('videos').get('srcurl')

# 分割

temp1 = faka_vedio_url.split('-', 1)

# 前部分翻轉

temp2 = ''.join(reversed(temp1[0]))

# 翻轉後以'/'切割再翻轉回來找到假id

fake_cont_id = ''.join(reversed(temp2.split('/', 1)[0]))

rel_vedio_url = faka_vedio_url.replace(fake_cont_id, 'cont-'+cont_id)

return rel_vedio_url

def download_vedio(cont_id: str, rel_vedio_url: str):

page_content = requests.get(rel_vedio_url).content

fp.write(page_content)

if __name__ == '__main__':

start_time = time.time()

rel_vedio_url = get_rel_link(cont_id=cont_id)

download_vedio(cont_id, rel_vedio_url)

end_time = time.time()

防盜煉python Python爬蟲學習指南

1,基礎篇 2,高階篇 3,高階篇 python 基礎是學習python爬蟲不可少的abc,爬蟲簡單的理解,就是通過程式模擬人操作網路傳送請求,獲取資料返回,清洗,篩選,整理出有用的資料,結構化儲存資料,方便資料的瀏覽,計算,視覺化,最終實現數字的描述型價值與 型價值 基礎庫urllib,urlll...

php簡單防盜煉處理

還有一種防盜煉就是配置apache和在伺服器配置.htaccess來實現防盜煉。首先在apache找到 loadmodule rewrite module modules mod rewrite.so 把前面的注釋 去掉,然後在windows下建立乙個txt文件,另存為之後改名字為.htaccess...

Python爬蟲之SSL認證處理

當我們爬取12306的時候,會彈出乙個視窗,顯示連線不是私密連線,這裡就是ca機構認證,每次訪問的時候都會出現證書頁面錯誤 我們直接寫 import request import requests response requests.get print response.status code 執行...