爬蟲的第三天

2021-10-20 22:16:48 字數 2077 閱讀 9544

聚焦爬蟲:爬取頁面中指定的頁面內容

正則解析爬取專案實戰

import requests

import re

import os

if __name__==

'__main__':if

not os.path.exists(

'./qiutulibs'):

os.mkdir(

'./qiutulibs'

)#設定乙個通用的url模板

url=

''headers =

pagenum=

1for pagenum in

range(1

,3):

newurl=

format

(url%pagenum)

#使用通用爬蟲對url對應的一整張頁面進行爬取

page_text = requests.get(url=newurl,headers=headers)

.text

#使用聚焦爬蟲正規表示式爬取所有的糗圖進行解析/提取

ex =

'.*?

#將正規表示式運用於爬取到的所有資料

img_src_list = re.findall(ex,page_text,re.s)

for src in img_src_list:

#拼接出乙個完整的位址

#請求到的二進位制資料

img_data = requests.get(url=src,headers=headers)

.content

#生成名稱

img_name = src.split(

'/')[-

1]# 路徑加名稱,即最終儲存的路徑

imgpath =

'./qiutulibs/'

+ img_name

with

open

(imgpath,

'wb'

)as fp:

fp.write(img_data)

print

(img_name,

)

mport requests

import re

import os

ifnot os.path.exists(

'./meinv'):

os.mkdir(

'./meinv'

)headers =

#設定乙個通用的url

url=

''for pagenum in

range(1

,4):

newurl=url.

format

(pagenum)

#先通用爬蟲,獲取整個頁面

page_text=requests.get(url=newurl,headers=headers)

.text

#聚焦爬蟲

ex='.*?

img_list_data=re.findall(ex,page_text,re.s)

print

(img_list_data)

for src in img_list_data:

#獲取位址

src=

''+src

img_data=requests.get(url=src,headers=headers)

.content

img_name=src.split(

'/')[-

1]img_path=

'./meinv/'

+img_name

with

open

(img_path,

'wb'

)as fp:

fp.write(img_data)

print

(img_name,

)print

('已全部爬取'

)

如給想要學習正規表示式請轉

爬蟲小試第三天

coding utf 8 import sys import urllib2 import datetime import random from bs4 import beautifulsoup reload sys sys.setdefaultencoding utf8 links 鏈結 nam...

15天學會爬蟲 第三天

a b if b else c 如果b為真,a b,否則a c if b a b else a c 將cookie字串直接放入headers中 準備cookie字典,在requests請求實傳入cookies引數中 cookies dict requests.get url,headers head...

2018 1 9 爬蟲學習第三天

encoding utf 8 from bs4 import beautifulsoup html 職位名稱 職位類別 人數地點 發布時間 22989 金融雲區塊鏈高階研發工程師 深圳 技術類1 深圳2017 11 25 22989 金融雲高階後台開發 技術類2 深圳2017 11 25 技術類2 ...