今天用到beautifulsoup解析爬下來的網頁資料
首先匯入包from bs4 import beautifulsoup
然後可以利用urllib請求資料
記得要導包
import urllib.request
然後呼叫urlopen,讀取資料
f=urllib.request.urlopen(『
response=f.read()
這裡我們就不請求資料了,直接用本地的html**,如下
注意:」』***」』是多行注釋
#python3
from bs4 import beautifulsoup
html='''
天下第一帥
class='sister'>
是不是'''#用beautifulsoup解析資料 python3 必須傳入引數二'html.parser' 得到乙個物件,接下來獲取物件的相關屬性
html=beautifulsoup(html,'html.parser')
# 讀取title內容
print(html.title)
# 讀取title屬性
attrs=html.title.attrs
print(attrs)
# 獲取屬性attrs['class'] ---->['ceshi'] 這是乙個list 通過下標可以獲取值
print(attrs['class'][0])
# 讀取body
print(html.body)
讀取資料還可以通過beautifulsoup的select方法
html.select()
#按標籤名查詢
soup.select('title')
soup.select('body')
# 按類名查詢
soup.select('.sister')
# 按id名查詢
# p標籤中id為link的標籤
soup.select('p #link')
#取標籤裡面的值
soup.p.string
#取標籤裡屬性值 通過href獲取
html['href']
Python3爬蟲連續獲取Cookies的方法
第一次獲取cookies headers url response requests.get url cookies response.cookies.get dict print cookies 第二次獲取cookies 跳過ssl驗證證書 import ssl 設定忽略ssl驗證 宣告乙個coo...
python3爬蟲實戰(3)
今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...
python3 爬蟲入門
這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...