基礎抓取元素

import requests
from bs4 import beautifulsoup
import re
geturl =
''head =
headers =
;link = requests.get(url=geturl,headers=headers)
#用瀏覽器頭訪問，否則返回403
#soup = beautifulsoup(link.text,"lxml")
#sou = soup.find('div',class_ ='unitprice')
pattern = r'data-price="(.*?)"'
#正規表示式原來要這麼寫，然後傳入findall中
rs = re.findall(pattern,link.text)
for detail in rs:
print
(detail)

注意findall後面是正則的語句，第二個引數應該是字串。

第一次用的時候將soup傳入了引數中，果斷報錯了。後來大佬幫忙debug發現了這裡不對。

結果即為第一頁每平方的**的輸出

訪問網頁的時候必須得傳入引數頭，否則返回403，好像是反爬蟲的機制。

一般第三個引數是可以更改ip

HTML基礎元素

html 文件是由html元素定義的.元素 html元素指的是從開始標籤 start tag 到結束標籤 end tag 的所有開始標籤被稱為 opening tag 開放標籤結束標籤被稱為closing tag 閉合標籤例圖開始標籤元素內容結束標籤 this is a paragrap...

HTML基礎元素

html 定義文件，由頭部和主體組成 title顯示在網頁標題欄 body顯示網頁內容 head定義文件頭部，描述了文件各種屬性和資訊，包含文件的標題，在web中的位置以及與其他文件的關係。可包含的標籤 title，meta，link，script，style titlemeta 瑪莎拉蒂 cont...

爬蟲基礎 Python 抓取網頁（學習筆記）

import urllib.request url headers 瀏覽器偽裝 request urllib.request.request url,headers headers 發出請求開啟和讀取url請求並且爬取網頁內容 try response urllib.request.urlopen...

基礎抓取元素

HTML基礎 元素

HTML基礎元素

爬蟲基礎 Python 抓取網頁（學習筆記）

相關推薦

HTML基礎元素