# coding=utf-8
import urllib2
import urllib
import re
class qiushi:
def _init_(self):
self.page = 1
# 從網頁獲取糗事
def getqiushis(self,page):
#**url = ""+page
#偽裝瀏覽器
user_agent = 'mozilla/4.0 (compatible; msie 5.5; windows nt)'
headers =
#請求req = urllib2.request(url,headers = headers)
response = urllib2.urlopen(req)
html = response.read()
#encode的作用是將unicode編碼轉換成其他編碼的字串
#decode的作用是將其他編碼的字串轉換成unicode編碼
unicodehtml = html.decode("utf-8")
items = re.findall('(.*?)
',unicodehtml,re.s)
contents =
for item in items:
# item 中第乙個是div的標題,也就是時間
# item 中第二個是div的內容,也就是內容
return contents
#列印糗事
def showqiushi(self,contents):
count = 1
for content in contents:
print "第%d條糗事" % count,content[0],"\n"
print content[1],"\n"
count += 1
#啟動def start(self):
page = 1
while page < 5:
print "第%d頁:\n" % page
python 爬取糗事百科
step 1 構建乙個提取糗事百科笑話的函式import urllib2 import urllib import re import thread import time import sys reload sys sys.setdefaultencoding utf 8 defgetpage p...
Python爬取糗事百科
一 引入模組 因為urlopen功能比較簡單,所以設定 ip需引入proxyhandler和build opener模組,ip的獲取可以上西祠 查詢 import re from urllib.request import request,build opener,proxyhandler base...
Python 爬取糗事百科
coding utf 8 import urllib2 import urllib import re class qiushi def init self self.page 1 從網頁獲取糗事 def getqiushis self,page url page 偽裝瀏覽器 user agent ...