python3爬蟲獲取html內容及各屬性值

今天用到beautifulsoup解析爬下來的網頁資料

首先匯入包from bs4 import beautifulsoup

然後可以利用urllib請求資料

記得要導包

import urllib.request

然後呼叫urlopen，讀取資料

f=urllib.request.urlopen(『

response=f.read()

這裡我們就不請求資料了，直接用本地的html**，如下

注意：」』***」』是多行注釋

#python3
from bs4 import beautifulsoup
html='''
天下第一帥
class='sister'>
是不是'''#用beautifulsoup解析資料  python3 必須傳入引數二'html.parser' 得到乙個物件，接下來獲取物件的相關屬性
html=beautifulsoup(html,'html.parser')
# 讀取title內容
print(html.title)
# 讀取title屬性
attrs=html.title.attrs
print(attrs)
# 獲取屬性attrs['class'] ---->['ceshi'] 這是乙個list 通過下標可以獲取值
print(attrs['class'][0])
# 讀取body
print(html.body)
讀取資料還可以通過beautifulsoup的select方法
html.select()
#按標籤名查詢 
soup.select('title')
soup.select('body')
# 按類名查詢
soup.select('.sister')
# 按id名查詢
# p標籤中id為link的標籤
soup.select('p #link')
#取標籤裡面的值
soup.p.string
#取標籤裡屬性值  通過href獲取
html['href']

Python3爬蟲連續獲取Cookies的方法

第一次獲取cookies headers url response requests.get url cookies response.cookies.get dict print cookies 第二次獲取cookies 跳過ssl驗證證書 import ssl 設定忽略ssl驗證宣告乙個coo...

python3爬蟲實戰（3）

今天心血來潮去爬取了一下招聘的實時招聘資訊。是選的條件是北京，實習生，計算機軟體。分析之後發現還是很容易的，不過過程中出了不少小問題，在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後，tem ul bsoj.find ul 存下整個ul元素。對...

python3 爬蟲入門

這裡爬取貓眼電影 top100 榜的資訊，作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單，環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯，因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...

python3爬蟲獲取html內容及各屬性值

Python3爬蟲連續獲取Cookies的方法

python3爬蟲實戰（3）

python3 爬蟲入門

相關推薦