import requests
from bs4 import beautifulsoup
from urllib.request import urlretrieve
import os
base_page_url =
''page_url_list =
for x in
range(1
,50):
url = base_page_url +
str(x)
print
(page_url_list)
通過分析網頁,我們可以發現,所有的表情包都是放在每乙個a標籤下面的,而的鏈結這是放在為乙個a標籤下面的data-original屬性,直到這些之後,我們就可以對我們的**進行爬取(**接上面的)
response = requests.get(page_url_list)
file_obj =
open
('doutula.html'
,'w'
, encoding=
'utf-8'
)file_obj.write(response.content.decode(
'utf-8'))
file_obj.close(
)file_obj =
open
('doutula.html'
,'rb'
)content = file_obj.read(
)file_obj.close(
)soup = beautifulsoup(content,
'lxml'
)img_list = soup.find_all(
'img'
, class_=
"img-responsive lazy image_dta"
)for img in img_list:
url =
(img[
'data-original'])
split_list = url.split(
'/')
filename = split_list.pop(
)
path = os.path.join(
'images'
, filename)
urlretrieve(url, filename=path)
最後,我們爬取的結果是這樣的:
這樣,我們這次的小專案就完成了!
爬取表情包
這是我第一次在這寫部落格,還是有點興奮。我也是剛接觸python不久,發現python 真的很強大,簡單就可以處理複雜的事。最近很想寫個爬蟲,但水平沒達到,正好csdn學院有個公開課,黃勇老師講的 90分鐘掌握python多執行緒爬蟲 全程實戰 3月6日晚20 00我聽了直播,當時沒跟上,等看了回播...
python爬蟲 表情包爬取
問題 1.路徑問題以及獲取路徑問題 注 argv 0 只是得到的是當前指令碼的絕對位置 而os模組中的幾種獲得路徑的方法,得到的是當前的工作目錄,如 open 1.txt r 則會在當前工作目錄查詢該檔案。即大部分的檔案操作都是相對於當前工作路徑。若要改變當前工作路徑,可以用 os.chdir pa...
爬蟲 學習爬取表情包
表情包位址 表情位址 1.請求目標 2.匹配不同位址 url def get urls url 1.請求目標 response requests.get url 2.通過正則來匹配不同位址 url 每張共有內容保留,不同的內容用.來匹配 表示匹配任意數量不換行的字元 表示盡可能匹配最短的字元 r u...