例項二》爬取論壇標題

2022-07-09 06:27:21 字數 1521 閱讀 6239

爬取論壇中的標題

這部分的重點:

2、用到了正規表示式,正規表示式不準確也是輸出不了想要的結果,建議輸出r.text後在正規表示式的**上確認自己的表示式沒有問題,再進行使用。

3、beautifulsoup知識點太多,單開文章彙總使用方法

#

使用正規表示式實現抓取網頁的標題

import

requests

import

reurl = "

"headers =

r =requests.get(url,headers)

html =r.text

print

(r.text)

title_list = re.findall('

(.*?)\n.*\n.+

',html)

print(title_list)

#

使用beautifulsoup抓取標題

import

requests

from bs4 import

beautifulsoup

url = "

"headers =

r =requests.get(url, headers)

soup = beautifulsoup(r.text,"

lxml")

ul = soup.find_all("

div",class_="

p-title")

#使用class做引數會導致語法錯誤,從beautiful soup的4.1.1版本開始,可以通過class_引數搜尋有指定css類名的tag

for i in

range(len(ul)):

title =ul[i].get_text()

print(title)

"""

使用lxml提取網頁源**有3種方法:

1、xpath選擇器

在xml文件中查詢資訊的語言

2、css選擇器

3、beautifulsoup的find()方法

"""import

requests

from lxml import

etree

link = "

"headers =

r =requests.get(link, headers)

html =etree.html(r.text)

title_list = html.xpath('

//div[@class="p-title"]/text()')

#右鍵檢查,定位標題,右鍵選擇複製-複製xpath,快速得到xpath路徑,缺點是一次輸出乙個值

title_list1 = html.xpath('

//*[@id="bbs_list"]/div[4]/ul/li[1]/a/div[1]/text()')

print

(title_list)

print(title_list1)

Python爬取網頁小標題

首先附上 爬取瞬眼天下網頁多頁的小標題 import requests from bs4 import beautifulsoup baseurl urls filename c users lws desktop shunyan.txt 需要儲存的位置 with open filename,w e...

爬取北大bbs論壇 鵲橋板塊列表(二)

二 實現 三 結果 鵲橋 piebridge 版旨在為北大在校學生 校友及親人朋友提供乙個包容 和諧 自由的尋找伴侶的平台。板塊中發布了許多交友貼 列 式 那麼把這些列表資訊爬取下來,儲存在mongodb中。檢視元素,找到列表的特徵,所有的帖子資訊顯示在class list item topic l...

爬取簡書標題和摘要

有些小瑕疵不知道為啥爬取的標題個數與摘要個數不是整個頁面的,而且兩者也不相等,不過是第一次做出來,簡單記錄一下啦 import urllib.request import re import os defurl open url req urllib.request.request url resp...