python3爬蟲獲取html內容及各屬性值

2021-08-05 20:18:45 字數 1126 閱讀 1805

今天用到beautifulsoup解析爬下來的網頁資料

首先匯入包from bs4 import beautifulsoup

然後可以利用urllib請求資料

記得要導包

import urllib.request

然後呼叫urlopen,讀取資料

f=urllib.request.urlopen(『

response=f.read()

這裡我們就不請求資料了,直接用本地的html**,如下

注意:」』***」』是多行注釋

#python3

from bs4 import beautifulsoup

html='''

天下第一帥

class='sister'>

是不是'''#用beautifulsoup解析資料 python3 必須傳入引數二'html.parser' 得到乙個物件,接下來獲取物件的相關屬性

html=beautifulsoup(html,'html.parser')

# 讀取title內容

print(html.title)

# 讀取title屬性

attrs=html.title.attrs

print(attrs)

# 獲取屬性attrs['class'] ---->['ceshi'] 這是乙個list 通過下標可以獲取值

print(attrs['class'][0])

# 讀取body

print(html.body)

讀取資料還可以通過beautifulsoup的select方法

html.select()

#按標籤名查詢

soup.select('title')

soup.select('body')

# 按類名查詢

soup.select('.sister')

# 按id名查詢

# p標籤中id為link的標籤

soup.select('p #link')

#取標籤裡面的值

soup.p.string

#取標籤裡屬性值 通過href獲取

html['href']

Python3爬蟲連續獲取Cookies的方法

第一次獲取cookies headers url response requests.get url cookies response.cookies.get dict print cookies 第二次獲取cookies 跳過ssl驗證證書 import ssl 設定忽略ssl驗證 宣告乙個coo...

python3爬蟲實戰(3)

今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...

python3 爬蟲入門

這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...