如圖所示,我想獲取中畫紅框的src路徑
這裡我們用urlib請求下來資料,然後用beautifulsoup解析資料
#python3
from bs4 import beautifulsoup
import urllib.request
url=''
response=urllib.request.urlopen(url)
#取右側的一周熱門排行的第一張
html=response.read()
#首先分析 是在body標籤下的 class=main-right的div下
#再乙個class為wenzi_add的div的列表ul li
# print(html)
#接下來用beautifulsoup解析html資料
html=html.decode('utf-8')#python3
soup=beautifulsoup(html,'html.parser')
div=soup.select('div[class=main-right]')
div1=div[0]
div2=div1.select('div[class=wenzi_add]')
div3=div2[0]
ul=div3.select('ul')
ul1=ul[0]
a=ul1.select('a')
a1=a[0]
img=a1.select('img')
#將img物件轉成list img[0] 然後獲取其中的src屬性img[0]['src']
src=img[0]['src']
print(src)
# 獲取url下的所有li標籤中的url
list=
for listr in ul1:
a=ul1.select('li')
a1=a[0]
img=a1.select('img')
src=img[0]['src']
print(list)
python3爬蟲實戰(3)
今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...
Python網路爬蟲實戰 二 資料解析
根據爬取下來的資料,我們需要寫不同的解析方式,最常見的一般都是html資料,也就是網頁的原始碼,還有一些可能是json資料,json資料是一種輕量級的資料交換格式,相對來說容易解析,它的格式如下。但是對於爬取下來是乙個html資料,其中標籤結構可能十分複雜,而且不同html的結構可能存在差異,所以解...
python3 解析json資料
python中json的序列化,反序列化分別對應encoding,decoding encoding 把乙個python物件編碼轉換為json串 decoding 把json串轉碼成python物件 json字串 import json test str1 json.dumps test,sort ...