#encoding=utf-8import urllib2,urllib
class tieba:
def tiebaspider(self,name,starpage,endpage):
#要爬取得網路位址
url = ""
#要爬取得帶關鍵字的位址
url = url+urllib.urlencode()+"&"
#迴圈起始位置到終止為止
for i in range(starpage,endpage+1):
pagenum = (i-1)*50
fullurl = url+urllib.urlencode()
html = self.loadpage(fullurl,i)
self.writepage(html,i)
def loadpage(self,url,pagenum):
header =
print "正在爬取第"+str(pagenum)+"頁資料......"
request = urllib2.request(url,headers=header)
response = urllib2.urlopen(request)
html = response.read()
return html
def writepage(self,html,pagenum):
filename = "di"+str(pagenum)+"ye.html"
print "正在寫入"+filename
with open(filename,"w") as file:
file.writelines(html)
if __name__=='__main__':
name = raw_input("請輸入要搜尋的貼吧名:")
startpage = input("請輸入起始頁:")
endpage = input("請輸入乙個終止頁:")
tieba = tieba()
tieba.tiebaspider(name,startpage,endpage)
print "爬取結束!"
爬取貼吧小專案
實現任意貼吧的爬蟲,儲存網頁到本地 思路 import requests 定義乙個貼吧爬蟲類 class tiebacrawler object 基礎url basic url 初始化方法 def init self,name,start,end self.name name self.start ...
Python爬蟲爬取百度貼吧多執行緒版
xpath提取內容 定位根節點 往下層尋找 提取文字內容 text 提取屬性內容 x 常規匹配 coding utf8 from lxml import etree html 極客學院 點我開啟課程庫 selector etree.html html 提取文字 content selector.xp...
Python爬蟲爬取百度貼吧多執行緒版
xpath提取內容 定位根節點 往下層尋找 提取文字內容 text 提取屬性內容 x 常規匹配 coding utf8 from lxml import etree html 極客學院 點我開啟課程庫 selector etree.html html 提取文字 content selector.xp...