僅作學習交流只用。
對於動態網頁,可以分析其請求資料,模擬post,只請求目的資料,占用資源較少,在網路頻寬有限的情況下比webbrowser有效。
主模組:
#-*- coding:utf-8 -*-
#lofterart爬蟲
#author:windroid
#15/3/5
import getpage
import downpic
import re
import time
maxpage=184
spage=19
path='d:\\lofter\\'
print path
print spage
print 'downloading...'
for downpage in range(spage,maxpage+1):
pagelist=getpage.getpage(downpage)
for v in pagelist:
#time.sleep(1)#404
downpic.downpic(v[10:],path)
#print v[10:]
open('set.ini','w').write(str(downpage))
print 'download page: '+str(downpage)+' over.'
print 'download is over.'
getpage
獲得列表
#-*- coding: utf-8 -*-
import urllib2
import gzip
import stringio
import re
def getpage(page):
'載入頁面,返回list,資料格式:productid=23123720'
batchid=196800-page*13
#if page==1:
# page=0
# param2=32
#elif page<=50:
# param2=16
#else:
# param2=8
param2=8
#c0-param0 1 框畫 2 明信片
Python抓取網頁
在python中,使用urllib2這個元件來抓取網頁。coding utf 8 urllib2是python的乙個獲取urls uniform resource locators 的元件。import urllib2 它以urlopen函式的形式提供了乙個非常簡單的介面 response urll...
Python抓取小說
這個指令碼命令mac在抓取 寫,使用python它有幾個碼。coding utf 8 import re import urllib2 import chardet import sys from bs4 import beautifulsoup import codecs class spider...
Python網頁抓取
coding utf 8 import urllib 匯入模組 print dir urllib 檢視urllib方法 print help urllib.urlopen 檢視幫助文件 url 定義 html urllib.urlopen url 開啟url print html.read urlo...