python爬蟲 入門 翻頁

2022-05-17 16:39:07 字數 1837 閱讀 8978

寫出來的爬蟲,肯定不能只在乙個頁面爬,只要要爬幾個頁面,甚至乙個**,這時候就需要用到翻頁了

其實翻頁很簡單,還是這個頁面話說我得給這個人增加了多大的訪問量啊......

10384633重點關注下這個數字,這個就是頁面的名稱,現在嘗試把這個數字+/-1看看有沒有結果

驗證

可以看到,這個頁面是可以訪問的

再試試這次不截圖了,可以自己去試試,也是可以訪問的

那麼接下來就好辦了,只要把這個數字每次+1或-1就可以了,甚至可以從開始嘗試連線,一直+1,直到502或404斷開

下面上**,還是用之前的內容,這次加了個頁面處理的函式

#

!/usr/bin/python

#coding: utf-8

import

urllib

import

urllib2

importre#

處理位址,並獲取頁面全部的位址

#這個函式用來處理頁面,每次+1

defget_page(url):

url_num = re.search('

(?<=\/)[0-9]+(?=\.)

',url)

url_num =url_num.group()

url_num_1 = int(url_num) + 1url =url.replace(url_num,str(url_num_1))

return

urlif

__name__ == '

__main__':

url = '

'for n in range(1,10):

url =get_page(url)

image_url_list =get_image_url(url)

for image_url in

image_url_list:

down_image(image_url)

#5

其實可以給get_page傳兩個引數,乙個是url另乙個是遞增的數值,就變成了get_page(url,n),但是我沒有這麼寫,可以思考下為什麼,如果把for n in range(1,10)改成while true會怎樣?嘿嘿......回頭人家封你ip可別找我啊

Python爬蟲入門

今天看了菜鳥教程的python教程,準備做個小作業寫個爬蟲程式。其中主要涉及到基本語法 正規表示式 urllib和re兩個模組。import urllib 載入模組 import re defgethtml url page urllib.urlopen url html page.read ret...

python爬蟲入門

這幾天閒的無聊想做乙個爬蟲來爬取一些 正經 首先選擇用python作為爬蟲的語言。但是沒有接觸過python怎麼辦呢,只能從頭開始學了。python學習位址這個是廖大神寫的乙個python入門,個人感覺寫的非常不錯,在粗略的學習了一遍之後感覺可以開始我的爬蟲之旅了。目標 抓取中妹子的儲存在本地 接下...

python爬蟲入門

初學者要學會基本的爬蟲 先要安裝包requests requests的安裝 開啟這個 在這個 上面有很多 python 的第三方庫檔案,我們按 ctrl f 搜尋很容易找到 requests 如下圖,我們將第乙個資料夾,也就是 requests 資料夾複製到 python 的安裝目錄下的 lib 目...