寫出來的爬蟲,肯定不能只在乙個頁面爬,只要要爬幾個頁面,甚至乙個**,這時候就需要用到翻頁了
其實翻頁很簡單,還是這個頁面話說我得給這個人增加了多大的訪問量啊......
10384633重點關注下這個數字,這個就是頁面的名稱,現在嘗試把這個數字+/-1看看有沒有結果
驗證
可以看到,這個頁面是可以訪問的
再試試這次不截圖了,可以自己去試試,也是可以訪問的
那麼接下來就好辦了,只要把這個數字每次+1或-1就可以了,甚至可以從開始嘗試連線,一直+1,直到502或404斷開
下面上**,還是用之前的內容,這次加了個頁面處理的函式
#其實可以給get_page傳兩個引數,乙個是url另乙個是遞增的數值,就變成了get_page(url,n),但是我沒有這麼寫,可以思考下為什麼,如果把for n in range(1,10)改成while true會怎樣?嘿嘿......回頭人家封你ip可別找我啊!/usr/bin/python
#coding: utf-8
import
urllib
import
urllib2
importre#
處理位址,並獲取頁面全部的位址
#這個函式用來處理頁面,每次+1
defget_page(url):
url_num = re.search('
(?<=\/)[0-9]+(?=\.)
',url)
url_num =url_num.group()
url_num_1 = int(url_num) + 1url =url.replace(url_num,str(url_num_1))
return
urlif
__name__ == '
__main__':
url = '
'for n in range(1,10):
url =get_page(url)
image_url_list =get_image_url(url)
for image_url in
image_url_list:
down_image(image_url)
#5
Python爬蟲入門
今天看了菜鳥教程的python教程,準備做個小作業寫個爬蟲程式。其中主要涉及到基本語法 正規表示式 urllib和re兩個模組。import urllib 載入模組 import re defgethtml url page urllib.urlopen url html page.read ret...
python爬蟲入門
這幾天閒的無聊想做乙個爬蟲來爬取一些 正經 首先選擇用python作為爬蟲的語言。但是沒有接觸過python怎麼辦呢,只能從頭開始學了。python學習位址這個是廖大神寫的乙個python入門,個人感覺寫的非常不錯,在粗略的學習了一遍之後感覺可以開始我的爬蟲之旅了。目標 抓取中妹子的儲存在本地 接下...
python爬蟲入門
初學者要學會基本的爬蟲 先要安裝包requests requests的安裝 開啟這個 在這個 上面有很多 python 的第三方庫檔案,我們按 ctrl f 搜尋很容易找到 requests 如下圖,我們將第乙個資料夾,也就是 requests 資料夾複製到 python 的安裝目錄下的 lib 目...