針對貓眼電影反爬理解,貌似也就只有貓眼電影的了

2022-06-02 05:12:09 字數 1858 閱讀 8291

import

reimport

requests

from fonttools.ttlib import

ttfont

from lxml import

etree

headers =

index_url = '

'#獲取首頁內容

response_index = requests.get(index_url, headers=headers).text

#獲取新的字型檔案的url

如果只有很少的字型需要替換,那麼可以試試,多個就不行了,比如汽車之家帖子,漢字都包含

#basefonts = ttfont('

309b80902447ba44c30dff21dcb11a012076.woff')

base_nums = ['

4', '

6', '

3', '

5', '

9', '

2', '

0', '

8', '

1', '7'

]base_fonts = ['

unif83f

', '

unif045

', '

uniea3e

', '

unie5de

', '

unie4fc

', '

unif066

', '

unie380

', '

unieb23

', '

unie6b8

','unif128']

# 載入新檔案到記憶體中去

onlinefonts = ttfont('

fonts.woff')

# 將字型檔案中flyp欄位中 前面和後面去掉,不屬於編碼的物件

uni_list = onlinefonts.getglyphnames()[1:-1]

temp ={}

#解析字型庫 預設0-9 10個數字

for i in range(10):

onlineglyph = onlinefonts['

glyf

'][uni_list[i]]

for j in range(10):

baseglyph = basefonts['

glyf

'][base_fonts[j]]

if onlineglyph ==baseglyph:

temp[

"&#x

" + uni_list[i][3:].lower() + '

;'] =base_nums[j]

#字元替換

pat = '

(' + '

|'.join(temp.keys()) + ')'

response_index = re.sub(pat, lambda

x: temp[x.group()], response_index)

print(response_index)

爬取貓眼電影

有乙份工作需要我列出兩個電影院的每天電影排期資訊,我不想每次都要去貓眼上覆制貼上。所以做了個爬蟲 功能 能夠知道每天的電影排期資訊 使用限制 只能在當天使用,不能在前一晚上使用,後面我會再考慮修改 coding utf 8 import requests import re from bs4 imp...

Python爬取貓眼電影

不多說,直接上 import requests import re import random import pymysql import time 連線資料庫 db pymysql.connect host localhost port 3306,user root passwd a db pyt...

貓眼電影影評爬取

電影的影評介面如下 這個可以在網上搜到,也可以自己抓包分析 這裡簡單的分析一下引數的含義 1218029 貓眼電影的id 這裡就是 少年的你 的電影id了 offset 偏移,貌似是依次增加15 我們可以每次增加offset來進行爬取,即讓offset每次增加15。我們通過這種方式來構造url,傳送...