1. html的基本格式
1. 下行遊歷。
1.1 contents
import requests #r = requests.get("
")demo =r.text
from bs4 import
beautifulsoup
soup = beautifulsoup(demo,"
html.parser")
print(soup.body.contents) #
返回所有子節點的資訊。。
print(soup.body.contents[1]) #
以列表的形勢,因此可以進行列表的處理
print(soup.p.contents) # 只返回標籤的全部子第乙個資訊
1.2 氣死我了連續兩次都沒儲存上。。。。。children and descendants
print(soup.body.children) # 僅迴圈 #2. 上行遊歷print(soup.body.descendants) # 僅迴圈 #
for i in
soup.body.children:
(i)for j in
soup.body.descendants:
print(j)
3. 平行遊歷(僅同一父親節點下)
bs4爬取網頁基礎
import requests from bs4 import beautifulsoup def getsoup url try r requests.get url,timeout 30 r.raise for status print r.text 很亂 soup beautifulsoup ...
爬蟲筆記(四) 基於bs4
爬取 詩詞名句 中,三國演義 全部內容。基於bs4,而不是正則。bs4相對於正則簡單一些,但是正則更加精準。準確的說是基於bs4中的beautifulsoup。同樣操作步驟 匯入包requests和bs4 headers ua偽裝 text是返回的資訊,也就是url中的原碼。可以print測試一下,...
基於bs4庫的HTML查詢方法
find all name,attrs,recursive,string,kwargs 返回乙個列表型別,內部儲存查詢的結果 對標籤名稱的檢索字串 import requests from bs4 import beautifulsoup r requests.get demo r.text sou...