目錄
二、資訊標記形式的比較
三、資訊提取的一般方法
四、基於bs4庫的html內容查詢方法
總結:
例項:提取html中所有url鏈結
思路:搜尋到所有標籤
解析標籤格式,提取href後的鏈結內容
import requests
r = requests.get("") # 得到response響應資料
demo = r.text
import bs4
# 製作soup
soup = bs4.beautifulsoup(demo,"html.parser") # 要解析的內容,html解析器
# 提取鏈結內容
for link in soup.find_all("a"): # 查詢所有a標籤,並遍歷
print(link.get("href")) # 標籤型別,搜尋href標籤後的鏈結內容
<>.find_all(name,attrs,recursive, string, **kwargs)
方法:
返回乙個列表型別,儲存查詢的結果
方法說明
<>.find()
搜尋且只返回乙個結果,同.find_all()引數
<>.find_parents()
在先輩節點中搜尋,返回列表型別,同.find_all()引數
<>.find_parent()
在先輩節點中返回乙個結果,同.find()引數
<>.find_next_siblings()
在後續平行節點中搜尋,返回列表型別,同.find_all()引數
<>.find_next_sibling()
在後續平行節點中返回乙個結果,同.find()引數
<>.find_previous_siblings()
在前序平行節點中搜尋,返回列表型別,同.find_all()引數
<>.find_previous_sibling()
在前序平行節點中返回乙個結果,同.find()引數
python爬蟲 selenium標記資訊修改
from selenium.webdriver import chrome from selenium.webdriver import chromeoptions option chromeoptions option.add experimental option excludeswitches...
05 python條件語句(if)
1.概念 條件語句,即判斷,判斷是否滿足條件,滿足條件即執行某些 不滿足則無法執行某些 2.語法 if 判斷條件 條件成 所執 的 1 條件成 所執 的 2 3.體驗 if true print 我是條件成 執 的 1 print 我是條件成 執 的 2 print 我是 論條件是否成 都要執 的 ...
python 網路爬蟲之資訊標記與提取
find all name,attrs,recursive,string,kwargs 返回列表型別,儲存查詢結果 屬性說明 name 對標籤名稱的檢索字串,可以 attrs 對標籤屬性值的檢索字串,可標註屬性檢索 recursive 是否對子孫所有節點進行搜尋,預設true string 對標籤中...