python 抓取lofterart動態頁面

2021-06-29 02:54:06 字數 2826 閱讀 9205

僅作學習交流只用。

對於動態網頁,可以分析其請求資料,模擬post,只請求目的資料,占用資源較少,在網路頻寬有限的情況下比webbrowser有效。

主模組:

#-*- coding:utf-8 -*-

#lofterart爬蟲

#author:windroid

#15/3/5

import getpage

import downpic

import re

import time

maxpage=184

spage=19

path='d:\\lofter\\'

print path

print spage

print 'downloading...'

for downpage in range(spage,maxpage+1):

pagelist=getpage.getpage(downpage)

for v in pagelist:

#time.sleep(1)#404

downpic.downpic(v[10:],path)

#print v[10:]

open('set.ini','w').write(str(downpage))

print 'download page: '+str(downpage)+' over.'

print 'download is over.'

getpage

獲得列表

#-*- coding: utf-8 -*-

import urllib2

import gzip

import stringio

import re

def getpage(page):

'載入頁面,返回list,資料格式:productid=23123720'

batchid=196800-page*13

#if page==1:

# page=0

# param2=32

#elif page<=50:

# param2=16

#else:

# param2=8

param2=8

#c0-param0 1 框畫 2 明信片

Python抓取網頁

在python中,使用urllib2這個元件來抓取網頁。coding utf 8 urllib2是python的乙個獲取urls uniform resource locators 的元件。import urllib2 它以urlopen函式的形式提供了乙個非常簡單的介面 response urll...

Python抓取小說

這個指令碼命令mac在抓取 寫,使用python它有幾個碼。coding utf 8 import re import urllib2 import chardet import sys from bs4 import beautifulsoup import codecs class spider...

Python網頁抓取

coding utf 8 import urllib 匯入模組 print dir urllib 檢視urllib方法 print help urllib.urlopen 檢視幫助文件 url 定義 html urllib.urlopen url 開啟url print html.read urlo...