Python爬蟲之爬取動漫之家

2021-10-07 18:50:15 字數 1672 閱讀 6061

python爬蟲之爬取動漫之家

小白上手爬蟲第一天,簡單爬取**動漫之家。

小小目標:

1.爬取5頁的動漫;

2.以list返回其動漫位址和動漫名字;

簡單粗暴,直接附上原始碼:

import requests 

import re

# 獲取頁面

defgethtmltext

(url)

:try

: kv =

r = requests.get(url,timeout =

30,headers=kv)

r.raise_for_status(

) return r.text

except

:return

"獲取頁面失敗"

# 解析頁面

defparsepage

(ilt,html)

:try

:# 匹配

res = re.

compile

(r'(.*?)'

,re.s)

web = re.findall(res,html)

for i in

range

(len

(web)):

[web[i][0

],web[i][1

]])return ilt

except

:print

("解析頁面失敗"

)def

printcommedieslist

(ilt)

:for g in

range

(len

(ilt)):

print

(ilt[g]

)def

main()

: cate =

"3262"

# 少年漫畫的**

# 設定爬取深度為3

depth =

5 start_url =

""+"3262"

+"-0-0-0-"

infolist =

count =

0for i in

range(1

,(depth+1)

):count +=

1try

:print

(count)

url = start_url +

str(i)

+".html"

#url = ""+"3262"+"-0-0-0-1.html"

html = gethtmltext(url)

infolist = parsepage(infolist,html)

print

(printcommedieslist(infolist)

)print

("\r爬取頁面當前進度: %"

.format

(count *

100/ depth)

, end="")

# 顯示進度條

except

:return

"unsucceeded"

if __name__ ==

'__main__'

: main(

)

python 爬取優酷動漫

coding utf 8 usr bin env python import re import requests import mysqldb type 熱血 格鬥 戀愛 美少女 校園 搞笑 loli 神魔 機戰 真人 青春 魔法 神話 冒險 運動 競技 童話 親子 教育 勵志 劇情 社會 歷史 ...

PYTHON爬取汽車之家資料

使用知識 使用說明 源 usr bin env python coding utf 8 time 2020 1 16 15 34 author wsx site file cars.py software pycharm import json from multiprocessing import...

爬取汽車之家

爬汽車之家新聞 爬取汽車之家新聞 import requests 向汽車之家傳送get請求,獲取到頁面 ret requests.get print ret.text 用bs4解析 from bs4 import beautifulsoup 例項化得到物件,傳入要解析的文字,解析器 html.par...