python爬取糗事百科段子

1 #-*-coding:utf-8-*-
2import urllib
3import urllib2
4import re
5 page = 1
6 url ='
'+str(page)
#第一頁url
7 headers=
#瀏覽器的headers ，模擬瀏覽器去訪問
8 request=urllib2.request(url,headers=headers)
#構建請求request
9 response =urllib2.urlopen(request)
#通過urlopen獲取頁面**
10 html=response.read()
#將獲取的**存入html變數 中
11#print(html)
# 到這裡就把這一頁的url爬取下來了
12 pattern=re.compile('
.*?title.*?.*?(.*?)
.*?.*?number">(.*?).*?.*?number">(.*?)
',re.s)
#挖出自己想要的內容
13 items=re.findall(pattern,html)
14for item in
items:
15     print(item[0
])#發布人
16     print(item[1
])#發布內容
17     print(item[2
])#好笑數
18     print(item[3])#點讚數

對上面正規表示式略作解釋：

（1）.*? 是固定搭配

（2）(.*?)代表乙個分組，能將每乙個括號裡匹配的內容輸出到終端。如第乙個item[0]代表第乙個分組即發布人。

（3）re.s代表在匹配時為點任意匹配模式

爬取部分結果如下：

正規表示式過於繁瑣，對其進行簡化

1 pattern=re.compile('
.*?title.*?.*?"content">(.*?).*?"stats">.*?number">(.*?).*?"dash">.*?number">(.*?)
',re.s)

爬取糗事百科段子

user bin env python coding utf 8 author holley file baike1.py datetime 4 12 2018 14 32 description import requests import re import csv from bs4 impor...

Scrapy 爬取糗事百科段子

1.python爬蟲實戰一之爬取糗事百科段子 2.在工作目錄建立myproject scrapy startproject myproject3.編寫 myproject myproject items.py coding utf 8 define here the models for your ...

爬取糗事百科，朗讀段子

一閒下來就不務正業了，寫個爬蟲，聽段子。額，mac自帶的語音朗讀，windows我就不知道啦，有興趣的可以去研究一下哈。環境 python 2.7 mac os 10.12 使用朗讀的 from subprocess import call call say hello pengge 當然了，聽起來...

python爬取糗事百科段子

爬取糗事百科段子

Scrapy 爬取糗事百科段子

爬取糗事百科，朗讀段子

相關推薦