前言
在設計爬蟲專案的時候,首先要在腦內明確人工瀏覽頁面獲得時的步驟
一般地,我們去網上批量開啟桌布的時候一般操作如下:
1、開啟桌布網頁
2、單擊桌布圖(開啟指定桌布的頁面)
3、選擇解析度(我們要**高畫質的圖)
4、儲存
實際操作時,我們實現了如下幾步網頁位址的訪問:開啟了桌布的網頁→單擊桌布圖開啟指定頁面→選擇解析度,點選後開啟最終儲存目標網頁→儲存
在爬蟲的過程中我們就嘗試通過模擬瀏覽器開啟網頁的操作,一步步獲得、訪問網頁、最後獲得目標的lbmvi**位址,對進行**儲存到指定路徑中www.cppcns.com
*這些中間過程中網頁的一些具體篩選條件的構造,需要開啟指定頁面的源**去觀察和尋找包含有目的鏈結的標籤
具體實現專案與注釋
這裡我只想獲得一些指定的,所以我先在網頁上搜尋「程式設計客棧長門有希」,開啟了乙個搜尋結果頁面,發現在這個頁面上就已經包含了同型別的其他桌布鏈結,於是我一開始就把最初訪問的目的位址設定為這個搜尋結果頁面
目標結果頁面截圖:
圖中下標為"1/29"."2/29"為其他同型別目標桌布,通過點選這些我們可以開啟新的目標**頁面
這裡我們檢視一下網頁源**
圖中黃色底的地方就是開啟這些同類桌布的目的位址(訪問的時候需要加上字首"")
現在我們可以嘗試實現構建爬蟲:
開啟指定頁面→篩選獲得所有長門有希桌布的目標**頁面鏈結
**如下:
獲得位址以後我們可以通過獲取位址→開啟指定頁面→選擇解析度→獲得目的**位址→儲存到本地指定路徑中
在測試的時候我輸出了一下上一步truelist中儲存的內容
可以看到儲存的只是乙個字尾,在訪問的時候我們需要加上乙個指定的字首
實現**如下(程式設計客棧注釋見**):
最後可以在自己的目標資料夾中看到爬下來的集~
本文標題: 詳解python靜態網頁爬取獲取高畫質桌布
本文位址: /jiaoben/python/257524.html
python爬蟲 爬取靜態網頁
爬蟲新手剛入門,萌新練手交流作 import requests import bs4 from bs4 import beautifulsoup 偽裝瀏覽器,獲取源 def gethtml url headers 偽裝瀏覽器 response requests.get url,headers hea...
Python爬取靜態網頁操作
靜態網頁一般指純粹的html格式的網頁,對於爬蟲來說,靜態網頁的資料都比較容易獲取,利用好requests庫就能輕鬆傳送http請求,獲取到網頁的資料。requests庫可以幫助我們獲取到響應內容,再通過一些引數來滿足我們的需求,它的安裝也十分簡單,對於windows使用者來說,在已經裝好pytho...
靜態網頁內容爬取(python)
以 漏洞掃瞄為例 from bs4 import beautifulsoup from urllib.request import urlopen import pymysql as mysqldb import re import os 插入資料 def insertdata lis cursor...