**如下:
#!/usr/bin/env python
# -*-coding:utf-8 -*-
import urllib
import urllib2
def loadpage(url,filename):
"""作用:根據url傳送請求,獲取伺服器響應檔案
url:需要爬取的url位址
filename:處理檔名
"""request=urllib2.request(url,headers=headers)
return urllib2.urlopen(request).read()
def writepage(html,filename):
"""作用:將html內容寫入本地
html:伺服器相應檔案內容
"""print "正在儲存" + filename
with open(filename,"w") as f:
f.write(html)
print "-"*30
def tiebaspider(url,beginpage,endpage):
"""作用:貼吧爬蟲排程器,負責組合處理每個頁面的url
url:貼吧url的前部分
beginpage:起始頁
endpage:結束頁
"""for page in range(beginpage,endpage+1)
pn=(page-1)*50
filename="第"+str(page)+"頁.html"
fullurl=url+"&pn="+str(pn)
#print fullurl
html=loadpage(fullurl,filename)
#print html
writepage(html,filename)
print "謝謝使用"
if __name__=="__main__":
kw=raw_input("請輸入需要爬取的貼吧名:")
beginpage=int(raw_input("請輸入起始頁:"))
endpage=int(raw_input("請輸入結束頁:"))
url=""
key=urllib.urlencode()
fullurl=url+key
tiebaspider(fullurl,beginpage,endpage)
Python貼吧小爬蟲
不用登陸,cookie,header 用了一點正規表示式 coding utf 8 created on sun apr 10 14 00 32 2016 author albert import urllib2 import re i 0begin int raw input u 輸入起始頁 en...
百度貼吧爬蟲 案例練習 GET 請求
usr bin env python coding utf 8 import urllib.request import urllib.parse import ssl get url 全域性取消證書驗證 作用 傳送請求,獲得響應 param search keywords 要查詢的關鍵字,para...
Python爬蟲 獲取貼吧內容
參考寫的第乙個比較完整的python爬蟲程式。coding utf 8 import urllib import urllib2 import re 處理頁面標籤類 class tool 去除img標籤,7位長空格 removeimg re.compile 刪除超連結標籤 removeaddr re...