爬取論壇中的標題
這部分的重點:
2、用到了正規表示式,正規表示式不準確也是輸出不了想要的結果,建議輸出r.text後在正規表示式的**上確認自己的表示式沒有問題,再進行使用。
3、beautifulsoup知識點太多,單開文章彙總使用方法
#使用正規表示式實現抓取網頁的標題
import
requests
import
reurl = "
"headers =
r =requests.get(url,headers)
html =r.text
(r.text)
title_list = re.findall('
(.*?)\n.*\n.+
',html)
print(title_list)
#使用beautifulsoup抓取標題
import
requests
from bs4 import
beautifulsoup
url = "
"headers =
r =requests.get(url, headers)
soup = beautifulsoup(r.text,"
lxml")
ul = soup.find_all("
div",class_="
p-title")
#使用class做引數會導致語法錯誤,從beautiful soup的4.1.1版本開始,可以通過class_引數搜尋有指定css類名的tag
for i in
range(len(ul)):
title =ul[i].get_text()
print(title)
"""使用lxml提取網頁源**有3種方法:
1、xpath選擇器
在xml文件中查詢資訊的語言
2、css選擇器
3、beautifulsoup的find()方法
"""import
requests
from lxml import
etree
link = "
"headers =
r =requests.get(link, headers)
html =etree.html(r.text)
title_list = html.xpath('
//div[@class="p-title"]/text()')
#右鍵檢查,定位標題,右鍵選擇複製-複製xpath,快速得到xpath路徑,缺點是一次輸出乙個值
title_list1 = html.xpath('
//*[@id="bbs_list"]/div[4]/ul/li[1]/a/div[1]/text()')
(title_list)
print(title_list1)
Python爬取網頁小標題
首先附上 爬取瞬眼天下網頁多頁的小標題 import requests from bs4 import beautifulsoup baseurl urls filename c users lws desktop shunyan.txt 需要儲存的位置 with open filename,w e...
爬取北大bbs論壇 鵲橋板塊列表(二)
二 實現 三 結果 鵲橋 piebridge 版旨在為北大在校學生 校友及親人朋友提供乙個包容 和諧 自由的尋找伴侶的平台。板塊中發布了許多交友貼 列 式 那麼把這些列表資訊爬取下來,儲存在mongodb中。檢視元素,找到列表的特徵,所有的帖子資訊顯示在class list item topic l...
爬取簡書標題和摘要
有些小瑕疵不知道為啥爬取的標題個數與摘要個數不是整個頁面的,而且兩者也不相等,不過是第一次做出來,簡單記錄一下啦 import urllib.request import re import os defurl open url req urllib.request.request url resp...