html內容如下:
html=''
'<
divid=1
>
<
p>
<
a>
床前明月光
>
>
<
/div
>
<
divid=2
>
<
p>
<
ahref
='1.html'
>
疑是地上霜
>
<
ahref
='2.html'
>
舉頭望明月
>
<
ahref
='3.html'
>
低頭撕褲襠
>
>
<
/div
>
'''
可以看到,div
標籤下包含了p--a
標籤
做一鍋湯
from bs4 import beautifulsoup
soup1 = beautifulsoup(html,
'html.parser'
)
獲取標籤
下的內容:
for i in soup.find(
'div',id
=2).children:
print
(i)
列印i
的結果:
"1.html">疑是地上霜
"2.html">舉頭望明月
"3.html">低頭撕褲襠
得到了
標籤下的所有內容。
下面獲取a標籤下href屬性
的值。
for i in soup1.find(
'div',id
=2):
soup2 = beautifulsoup(
str(i)
,'html.parser'
)for j in soup2.find_all(
'a')
:print
(j['href'
])
列印href
結果:
1.html
2.html
3.html
方法總結,在已經過濾soup的基礎上再次重做soup。(絕對有更簡易的方法,希望看到的同學能指出) html基礎標籤下
1單標籤 注釋標籤 ctrl 水平線標籤 換行標籤 段落標籤 h1 h6 值只能取到 6 h1 在頁面中只能出現一次。文字標籤 標籤 上標下標 相對路徑 檔案和 html 在同一資料夾 目錄 時,直接寫檔名 檔名 檔名 絕對路徑 鏈結文字 錨鏈結 空鏈 鏈結優化寫法 blank 空格無序列表 有序列...
HTML常用標籤 下
表頭單元格 普通單元格內的文字 這是 表頭單元格 這是普通單元格 這些屬性通過css設定。屬性名描述 align 相對周圍元素的對齊方式 left center right border 是否有邊框,預設沒有 沒有,1 有 cellpadding 單元邊緣與其內容之間的空白,預設為1px cells...
xpath提取多個標籤下的text
原文 主題xpath 在寫爬蟲的時候,經常會使用xpath進行資料的提取,對於如下的 使用xpath提取是非常方便的。假設網頁的源 在selector中 data selector.xpath div id test1 text extract 0 然而如果遇到下面這段 呢?id test2 美女,...