例項二》爬取論壇標題

爬取論壇中的標題

這部分的重點：

2、用到了正規表示式，正規表示式不準確也是輸出不了想要的結果，建議輸出r.text後在正規表示式的**上確認自己的表示式沒有問題，再進行使用。

3、beautifulsoup知識點太多，單開文章彙總使用方法

#
使用正規表示式實現抓取網頁的標題
import
requests
import
reurl = "
"headers =
r =requests.get(url,headers)
html =r.text
print
(r.text)
title_list = re.findall('
(.*?)\n.*\n.+
',html)
print(title_list)

#
使用beautifulsoup抓取標題
import
requests
from bs4 import
beautifulsoup
url = "
"headers =
r =requests.get(url, headers)
soup = beautifulsoup(r.text,"
lxml")
ul = soup.find_all("
div",class_="
p-title")
#使用class做引數會導致語法錯誤，從beautiful soup的4.1.1版本開始，可以通過class_引數搜尋有指定css類名的tag
for i in
range(len(ul)):
title =ul[i].get_text()
print(title)

"""
使用lxml提取網頁源**有3種方法：
1、xpath選擇器
在xml文件中查詢資訊的語言
2、css選擇器
3、beautifulsoup的find()方法
"""import
requests
from lxml import
etree
link = "
"headers =
r =requests.get(link, headers)
html =etree.html(r.text)
title_list = html.xpath('
//div[@class="p-title"]/text()')
#右鍵檢查，定位標題，右鍵選擇複製-複製xpath，快速得到xpath路徑，缺點是一次輸出乙個值
title_list1 = html.xpath('
//*[@id="bbs_list"]/div[4]/ul/li[1]/a/div[1]/text()')
print
(title_list)
print(title_list1)

Python爬取網頁小標題

首先附上爬取瞬眼天下網頁多頁的小標題 import requests from bs4 import beautifulsoup baseurl urls filename c users lws desktop shunyan.txt 需要儲存的位置 with open filename,w e...

爬取北大bbs論壇鵲橋板塊列表（二）

二實現三結果鵲橋 piebridge 版旨在為北大在校學生校友及親人朋友提供乙個包容和諧自由的尋找伴侶的平台。板塊中發布了許多交友貼列式那麼把這些列表資訊爬取下來，儲存在mongodb中。檢視元素，找到列表的特徵，所有的帖子資訊顯示在class list item topic l...

爬取簡書標題和摘要

有些小瑕疵不知道為啥爬取的標題個數與摘要個數不是整個頁面的，而且兩者也不相等，不過是第一次做出來，簡單記錄一下啦 import urllib.request import re import os defurl open url req urllib.request.request url resp...

例項二》爬取論壇標題

Python爬取網頁小標題

爬取北大bbs論壇 鵲橋板塊列表（二）

爬取簡書標題和摘要

相關推薦

爬取北大bbs論壇鵲橋板塊列表（二）