python爬取糗事百科段子

2022-04-23 00:46:20 字數 1157 閱讀 1718

1 #-*-coding:utf-8-*-

2import urllib

3import urllib2

4import re

5 page = 1

6 url ='

'+str(page)

#第一頁url

7 headers=

#瀏覽器的headers ,模擬瀏覽器去訪問

8 request=urllib2.request(url,headers=headers)

#構建請求request

9 response =urllib2.urlopen(request)

#通過urlopen獲取頁面**

10 html=response.read()

#將獲取的**存入html變數 中

11#print(html)

# 到這裡就把這一頁的url爬取下來了

12 pattern=re.compile('

.*?title.*?.*?(.*?)

.*?.*?number">(.*?).*?.*?number">(.*?)

',re.s)

#挖出自己想要的內容

13 items=re.findall(pattern,html)

14for item in

items:

15 print(item[0

])#發布人

16 print(item[1

])#發布內容

17 print(item[2

])#好笑數

18 print(item[3])#點讚數

對上面正規表示式略作解釋:

(1).*? 是固定搭配

(2)(.*?)代表乙個分組,能將每乙個括號裡匹配的內容輸出到終端。如第乙個item[0]代表第乙個分組即發布人。

(3)re.s代表在匹配時為點任意匹配模式

爬取部分結果如下:

正規表示式過於繁瑣,對其進行簡化

1 pattern=re.compile('

.*?title.*?.*?"content">(.*?).*?"stats">.*?number">(.*?).*?"dash">.*?number">(.*?)

',re.s)

爬取糗事百科段子

user bin env python coding utf 8 author holley file baike1.py datetime 4 12 2018 14 32 description import requests import re import csv from bs4 impor...

Scrapy 爬取糗事百科段子

1.python爬蟲實戰一之爬取糗事百科段子 2.在工作目錄建立myproject scrapy startproject myproject3.編寫 myproject myproject items.py coding utf 8 define here the models for your ...

爬取糗事百科,朗讀段子

一閒下來就不務正業了,寫個爬蟲,聽段子。額,mac自帶的語音朗讀,windows我就不知道啦,有興趣的可以去研究一下哈。環境 python 2.7 mac os 10.12 使用朗讀的 from subprocess import call call say hello pengge 當然了,聽起來...