基礎抓取元素

2021-09-16 23:07:38 字數 665 閱讀 5329

import requests

from bs4 import beautifulsoup

import re

geturl =

''head =

headers =

;link = requests.get(url=geturl,headers=headers)

#用瀏覽器頭訪問,否則返回403

#soup = beautifulsoup(link.text,"lxml")

#sou = soup.find('div',class_ ='unitprice')

pattern = r'data-price="(.*?)"'

#正規表示式原來要這麼寫,然後傳入findall中

rs = re.findall(pattern,link.text)

for detail in rs:

print

(detail)

注意findall後面是正則的語句,第二個引數應該是字串。

第一次用的時候將soup傳入了引數中,果斷報錯了。後來大佬幫忙debug發現了這裡不對。

結果即為第一頁每平方的**的輸出

訪問網頁的時候必須得傳入引數頭,否則返回403,好像是反爬蟲的機制。

一般第三個引數是可以更改ip

HTML基礎 元素

html 文件是由html元素定義的.元素 html元素指的是從開始標籤 start tag 到結束標籤 end tag 的所有 開始標籤被稱為 opening tag 開放標籤 結束標籤被稱為closing tag 閉合標籤 例圖 開始標籤 元素內容 結束標籤 this is a paragrap...

HTML基礎元素

html 定義文件,由頭部和主體組成 title顯示在網頁標題欄 body顯示網頁內容 head定義文件頭部,描述了文件各種屬性和資訊,包含文件的標題,在web中的位置以及與其他文件的關係。可包含的標籤 title,meta,link,script,style titlemeta 瑪莎拉蒂 cont...

爬蟲基礎 Python 抓取網頁(學習筆記)

import urllib.request url headers 瀏覽器偽裝 request urllib.request.request url,headers headers 發出請求 開啟和讀取url請求並且爬取網頁內容 try response urllib.request.urlopen...