import requests
from bs4 import beautifulsoup
import re
geturl =
''head =
headers =
;link = requests.get(url=geturl,headers=headers)
#用瀏覽器頭訪問,否則返回403
#soup = beautifulsoup(link.text,"lxml")
#sou = soup.find('div',class_ ='unitprice')
pattern = r'data-price="(.*?)"'
#正規表示式原來要這麼寫,然後傳入findall中
rs = re.findall(pattern,link.text)
for detail in rs:
print
(detail)
注意findall後面是正則的語句,第二個引數應該是字串。
第一次用的時候將soup傳入了引數中,果斷報錯了。後來大佬幫忙debug發現了這裡不對。
結果即為第一頁每平方的**的輸出
訪問網頁的時候必須得傳入引數頭,否則返回403,好像是反爬蟲的機制。
一般第三個引數是可以更改ip
HTML基礎 元素
html 文件是由html元素定義的.元素 html元素指的是從開始標籤 start tag 到結束標籤 end tag 的所有 開始標籤被稱為 opening tag 開放標籤 結束標籤被稱為closing tag 閉合標籤 例圖 開始標籤 元素內容 結束標籤 this is a paragrap...
HTML基礎元素
html 定義文件,由頭部和主體組成 title顯示在網頁標題欄 body顯示網頁內容 head定義文件頭部,描述了文件各種屬性和資訊,包含文件的標題,在web中的位置以及與其他文件的關係。可包含的標籤 title,meta,link,script,style titlemeta 瑪莎拉蒂 cont...
爬蟲基礎 Python 抓取網頁(學習筆記)
import urllib.request url headers 瀏覽器偽裝 request urllib.request.request url,headers headers 發出請求 開啟和讀取url請求並且爬取網頁內容 try response urllib.request.urlopen...