處理子標籤和其他後代標籤
# beautifulsoup 函式總是處理當前標籤的後代標籤
from urllib.request import urlopen
from bs4 import beautifulsoup
html = urlopen(
'')bs = beautifulsoup(html,
'html.parser'
)# .descendants() 後代標籤函式,.children() 子代標籤函式
for child in bs.find(
'table',)
.children:
print
(child)
處理兄弟標籤
from urllib.request import urlopen
from bs4 import beautifulsoup
html = urlopen(
'')bs = beautifulsoup(html,
'html.parser'
)# 第乙個標題行未選擇
# next_siblings() 函式只呼叫tr後面的兄弟標籤
for sibling in bs.find(
'table',)
.tr.next_siblings:
print
(sibling)
處理父標籤
from urllib.request import urlopen
from bs4 import beautifulsoup
html = urlopen(
'')bs = beautifulsoup(html,
'html.parser'
)print
(bs.find(
'img',)
.parent.previous_sibling.get_text(
))
選擇具體的標籤獲取**第一行
from urllib.request import urlopen
from bs4 import beautifulsoup
html = urlopen(
'')bs = beautifulsoup(html,
'html.parser'
)for sibling in bs.find(
'table',)
.tr:
print
(sibling)
Python 網路爬蟲 2
1 urlopen 方法中有乙個可選引數timeout,用於設定連線的超時時間,單位秒 2 如何從urlopen 的返回物件中獲取http狀態碼 resp urllib.request.urlopen url code response.getcode 3 在客戶端和伺服器之間進行請求 響應時,常用...
《css權威指南》筆記2
屬性選擇器在為不帶有 class 或 id 的表單設定樣式時特別有用 如,input type text foo bar 選取帶有以指定值bar開頭的屬性值的元素,該值必須是整個單詞bar 或 bar foo bar 選擇foo屬性以bar開頭的所有元素 foo bar 選擇foo屬性以bar結尾的...
爬蟲 2初學Python網路爬蟲
2 網路爬蟲的限制 3 robotst協議 4 robots協議的遵守方式 web伺服器預設接收人類訪問,受限於編寫水平和目的,網路爬蟲將會為web伺服器帶來巨大的資源開銷 伺服器上的資料有產權歸屬,網路爬蟲獲取資料後牟利將帶來法律風險 網路爬蟲可能具備突破簡單訪問控制的能力,獲得被保護資料 從而洩...