聚焦爬蟲:爬取頁面中指定的頁面內容
正則解析爬取專案實戰
import requests
import re
import os
if __name__==
'__main__':if
not os.path.exists(
'./qiutulibs'):
os.mkdir(
'./qiutulibs'
)#設定乙個通用的url模板
url=
''headers =
pagenum=
1for pagenum in
range(1
,3):
newurl=
format
(url%pagenum)
#使用通用爬蟲對url對應的一整張頁面進行爬取
page_text = requests.get(url=newurl,headers=headers)
.text
#使用聚焦爬蟲正規表示式爬取所有的糗圖進行解析/提取
ex =
'.*?
#將正規表示式運用於爬取到的所有資料
img_src_list = re.findall(ex,page_text,re.s)
for src in img_src_list:
#拼接出乙個完整的位址
#請求到的二進位制資料
img_data = requests.get(url=src,headers=headers)
.content
#生成名稱
img_name = src.split(
'/')[-
1]# 路徑加名稱,即最終儲存的路徑
imgpath =
'./qiutulibs/'
+ img_name
with
open
(imgpath,
'wb'
)as fp:
fp.write(img_data)
print
(img_name,
)
mport requests
import re
import os
ifnot os.path.exists(
'./meinv'):
os.mkdir(
'./meinv'
)headers =
#設定乙個通用的url
url=
''for pagenum in
range(1
,4):
newurl=url.
format
(pagenum)
#先通用爬蟲,獲取整個頁面
page_text=requests.get(url=newurl,headers=headers)
.text
#聚焦爬蟲
ex='.*?
img_list_data=re.findall(ex,page_text,re.s)
print
(img_list_data)
for src in img_list_data:
#獲取位址
src=
''+src
img_data=requests.get(url=src,headers=headers)
.content
img_name=src.split(
'/')[-
1]img_path=
'./meinv/'
+img_name
with
open
(img_path,
'wb'
)as fp:
fp.write(img_data)
print
(img_name,
)print
('已全部爬取'
)
如給想要學習正規表示式請轉 爬蟲小試第三天
coding utf 8 import sys import urllib2 import datetime import random from bs4 import beautifulsoup reload sys sys.setdefaultencoding utf8 links 鏈結 nam...
15天學會爬蟲 第三天
a b if b else c 如果b為真,a b,否則a c if b a b else a c 將cookie字串直接放入headers中 準備cookie字典,在requests請求實傳入cookies引數中 cookies dict requests.get url,headers head...
2018 1 9 爬蟲學習第三天
encoding utf 8 from bs4 import beautifulsoup html 職位名稱 職位類別 人數地點 發布時間 22989 金融雲區塊鏈高階研發工程師 深圳 技術類1 深圳2017 11 25 22989 金融雲高階後台開發 技術類2 深圳2017 11 25 技術類2 ...