1 #-*-coding:utf-8-*-2import urllib
3import urllib2
4import re
5 page = 1
6 url ='
'+str(page)
#第一頁url
7 headers=
#瀏覽器的headers ,模擬瀏覽器去訪問
8 request=urllib2.request(url,headers=headers)
#構建請求request
9 response =urllib2.urlopen(request)
#通過urlopen獲取頁面**
10 html=response.read()
#將獲取的**存入html變數 中
11#print(html)
# 到這裡就把這一頁的url爬取下來了
12 pattern=re.compile('
.*?title.*?.*?(.*?)
.*?.*?number">(.*?).*?.*?number">(.*?)
',re.s)
#挖出自己想要的內容
13 items=re.findall(pattern,html)
14for item in
items:
15 print(item[0
])#發布人
16 print(item[1
])#發布內容
17 print(item[2
])#好笑數
18 print(item[3])#點讚數
對上面正規表示式略作解釋:
(1).*? 是固定搭配
(2)(.*?)代表乙個分組,能將每乙個括號裡匹配的內容輸出到終端。如第乙個item[0]代表第乙個分組即發布人。
(3)re.s代表在匹配時為點任意匹配模式
爬取部分結果如下:
正規表示式過於繁瑣,對其進行簡化
1 pattern=re.compile('.*?title.*?.*?"content">(.*?).*?"stats">.*?number">(.*?).*?"dash">.*?number">(.*?)
',re.s)
爬取糗事百科段子
user bin env python coding utf 8 author holley file baike1.py datetime 4 12 2018 14 32 description import requests import re import csv from bs4 impor...
Scrapy 爬取糗事百科段子
1.python爬蟲實戰一之爬取糗事百科段子 2.在工作目錄建立myproject scrapy startproject myproject3.編寫 myproject myproject items.py coding utf 8 define here the models for your ...
爬取糗事百科,朗讀段子
一閒下來就不務正業了,寫個爬蟲,聽段子。額,mac自帶的語音朗讀,windows我就不知道啦,有興趣的可以去研究一下哈。環境 python 2.7 mac os 10.12 使用朗讀的 from subprocess import call call say hello pengge 當然了,聽起來...