爬蟲如何提取HTML多層標籤下的內容

html內容如下：

html=''
'<
divid=1
>
<
p>
<
a>
床前明月光
>
>
<
/div
>
<
divid=2
>
<
p>
<
ahref
='1.html'
>
疑是地上霜
>
<
ahref
='2.html'
>
舉頭望明月
>
<
ahref
='3.html'
>
低頭撕褲襠
>
>
<
/div
>
'''

可以看到,div標籤下包含了p--a標籤

做一鍋湯

from bs4 import beautifulsoup
soup1 = beautifulsoup(html,
'html.parser'
)

獲取標籤下的內容：

for i in soup.find(
'div',id
=2).children:
print
(i)

列印i的結果：

"1.html">疑是地上霜
"2.html">舉頭望明月
"3.html">低頭撕褲襠

得到了標籤下的所有內容。

下面獲取a標籤下href屬性的值。

for i in soup1.find(
'div',id
=2):
soup2 = beautifulsoup(
str(i)
,'html.parser'
)for j in soup2.find_all(
'a')
:print
(j['href'
])

列印href結果：

1.html 2.html

3.html

方法總結，在已經過濾soup的基礎上再次重做soup。(絕對有更簡易的方法，希望看到的同學能指出）

html基礎標籤下

1單標籤注釋標籤 ctrl 水平線標籤換行標籤段落標籤 h1 h6 值只能取到 6 h1 在頁面中只能出現一次。文字標籤標籤上標下標相對路徑檔案和 html 在同一資料夾目錄時，直接寫檔名檔名檔名絕對路徑鏈結文字錨鏈結空鏈鏈結優化寫法 blank 空格無序列表有序列...

HTML常用標籤下

表頭單元格普通單元格內的文字這是表頭單元格這是普通單元格這些屬性通過css設定。屬性名描述 align 相對周圍元素的對齊方式 left center right border 是否有邊框，預設沒有沒有，1 有 cellpadding 單元邊緣與其內容之間的空白，預設為1px cells...

xpath提取多個標籤下的text

原文主題xpath 在寫爬蟲的時候，經常會使用xpath進行資料的提取，對於如下的使用xpath提取是非常方便的。假設網頁的源在selector中 data selector.xpath div id test1 text extract 0 然而如果遇到下面這段呢？id test2 美女，...

爬蟲 如何提取HTML多層標籤下的內容

html基礎標籤下

HTML常用標籤 下

xpath提取多個標籤下的text

相關推薦

爬蟲如何提取HTML多層標籤下的內容

HTML常用標籤下