爬蟲 如何提取HTML多層標籤下的內容

2021-10-08 17:36:20 字數 1368 閱讀 4393

html內容如下:

html=''

'<

divid=1

>

<

p>

<

a>

床前明月光

>

>

<

/div

>

<

divid=2

>

<

p>

<

ahref

='1.html'

>

疑是地上霜

>

<

ahref

='2.html'

>

舉頭望明月

>

<

ahref

='3.html'

>

低頭撕褲襠

>

>

<

/div

>

'''

可以看到,div標籤下包含了p--a標籤

做一鍋湯

from bs4 import beautifulsoup

soup1 = beautifulsoup(html,

'html.parser'

)

獲取標籤下的內容:

for i in soup.find(

'div',id

=2).children:

print

(i)

列印i的結果:

"1.html">疑是地上霜

"2.html">舉頭望明月

"3.html">低頭撕褲襠

得到了標籤下的所有內容。

下面獲取a標籤下href屬性的值。

for i in soup1.find(

'div',id

=2):

soup2 = beautifulsoup(

str(i)

,'html.parser'

)for j in soup2.find_all(

'a')

:print

(j['href'

])

列印href結果:

1.html

2.html

3.html

方法總結,在已經過濾soup的基礎上再次重做soup。(絕對有更簡易的方法,希望看到的同學能指出)

html基礎標籤下

1單標籤 注釋標籤 ctrl 水平線標籤 換行標籤 段落標籤 h1 h6 值只能取到 6 h1 在頁面中只能出現一次。文字標籤 標籤 上標下標 相對路徑 檔案和 html 在同一資料夾 目錄 時,直接寫檔名 檔名 檔名 絕對路徑 鏈結文字 錨鏈結 空鏈 鏈結優化寫法 blank 空格無序列表 有序列...

HTML常用標籤 下

表頭單元格 普通單元格內的文字 這是 表頭單元格 這是普通單元格 這些屬性通過css設定。屬性名描述 align 相對周圍元素的對齊方式 left center right border 是否有邊框,預設沒有 沒有,1 有 cellpadding 單元邊緣與其內容之間的空白,預設為1px cells...

xpath提取多個標籤下的text

原文 主題xpath 在寫爬蟲的時候,經常會使用xpath進行資料的提取,對於如下的 使用xpath提取是非常方便的。假設網頁的源 在selector中 data selector.xpath div id test1 text extract 0 然而如果遇到下面這段 呢?id test2 美女,...