根據別人寫的教程學習的 由於現在糗事百科那個**進行了修改 原來使用的正規表示式不適用了自己重新寫的正規表示式 可以爬取熱門段子的作者 內容 發布時間 讚數
#__author youngkl
# -*- coding:utf-8 -*-
import urllib
import urllib2
import re
page = 1
url = '' + str(page)
user_agent = 'mozilla/4.0 (compatible; msie 5.5; windows nt)'
headers =
try:
request = urllib2.request(url,headers = headers)
response = urllib2.urlopen(request)
content=response.read().decode('utf-8')
# pattern=re.compile('.*?.*?(.*?).*?(.*?)
(.*?)(.*?)',re.s)
pattern=re.compile(r'.*?\n\n(.*?)\n
\n.*?\n+(.*?)\n\n+
\n.*?(.*?)',re.s)
# pattern = re.compile(r'.*?\n\n\n\n(.*?).*?\n
\n+\n+(.*?)\n\n+
\n+[\s\s]*?\n(.*?).*?',re.s)
items=re.findall(pattern,content)
# print page
for item in items:
print item[0],item[1],item[2],item[3]
# ,item[1],item[2],item[3],item[4]
# print response.read()
except urllib2.urlerror, e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason
PYTHON爬蟲學習 糗事百科內容爬取
改了半天,終於按照自己的設想把這東西做出來了,趕快把自己的心得寫下來。首先上原始碼 先觀察各網頁間的 規律,構建出 變數,通過for迴圈實現多頁內容的爬取 構建乙個自定義的函式,來爬取我們想要的內容 開始還是模擬chrome瀏覽器進行訪問。因為爬取的主要是使用者的id和使用者發表的段子這倆部分內容,...
python爬蟲(一)爬取糗事百科
最近需要收集語料,因此學習了一些爬蟲的知識,參考網上對糗事百科的爬蟲,編寫了如下 usr bin env python coding utf 8 import re from urllib import request for page in range 1,2 print page url str...
爬蟲實戰(二) 爬取糗事百科段子
源 為 from urllib.request import request,urlopen import requests import re import time def gethtml url headers 設定虛擬headers資訊 request request url,headers...