表情包的爬取

2021-10-06 07:08:55 字數 1361 閱讀 2839

import requests

from bs4 import beautifulsoup

from urllib.request import urlretrieve

import os

base_page_url =

''page_url_list =

for x in

range(1

,50):

url = base_page_url +

str(x)

print

(page_url_list)

通過分析網頁,我們可以發現,所有的表情包都是放在每乙個a標籤下面的,而的鏈結這是放在為乙個a標籤下面的data-original屬性,直到這些之後,我們就可以對我們的**進行爬取(**接上面的)

response = requests.get(page_url_list)

file_obj =

open

('doutula.html'

,'w'

, encoding=

'utf-8'

)file_obj.write(response.content.decode(

'utf-8'))

file_obj.close(

)file_obj =

open

('doutula.html'

,'rb'

)content = file_obj.read(

)file_obj.close(

)soup = beautifulsoup(content,

'lxml'

)img_list = soup.find_all(

'img'

, class_=

"img-responsive lazy image_dta"

)for img in img_list:

url =

(img[

'data-original'])

split_list = url.split(

'/')

filename = split_list.pop(

)

path = os.path.join(

'images'

, filename)

urlretrieve(url, filename=path)

最後,我們爬取的結果是這樣的:

這樣,我們這次的小專案就完成了!

爬取表情包

這是我第一次在這寫部落格,還是有點興奮。我也是剛接觸python不久,發現python 真的很強大,簡單就可以處理複雜的事。最近很想寫個爬蟲,但水平沒達到,正好csdn學院有個公開課,黃勇老師講的 90分鐘掌握python多執行緒爬蟲 全程實戰 3月6日晚20 00我聽了直播,當時沒跟上,等看了回播...

python爬蟲 表情包爬取

問題 1.路徑問題以及獲取路徑問題 注 argv 0 只是得到的是當前指令碼的絕對位置 而os模組中的幾種獲得路徑的方法,得到的是當前的工作目錄,如 open 1.txt r 則會在當前工作目錄查詢該檔案。即大部分的檔案操作都是相對於當前工作路徑。若要改變當前工作路徑,可以用 os.chdir pa...

爬蟲 學習爬取表情包

表情包位址 表情位址 1.請求目標 2.匹配不同位址 url def get urls url 1.請求目標 response requests.get url 2.通過正則來匹配不同位址 url 每張共有內容保留,不同的內容用.來匹配 表示匹配任意數量不換行的字元 表示盡可能匹配最短的字元 r u...