.prettify() 將html**格式化
.get_text() 獲得所有文字內容
.contens 返回所有子節點
.children 返回子節點生成器
.descendants 返回所有子孫節點的生成器
.strings 返回包含的多個字串的生成器
.stripped_strings 返回包含的多個字串(去除多餘空白)的生成器
.parent 獲取某個元素的父節點
.parents 遞迴得到元素的所有父輩節點
.next_sibling 和 .previous_sibling 屬性來查詢兄弟節點
.next_siblings 和 .previous_siblings 屬性可以對當前節點的兄弟節點迭代輸出
.next_element|.previous_element 屬性指向解析過程中下(上)乙個被解析的物件(字串或tag)
.next_elements 和 .previous_elements 的迭代器就可以向前或向後訪問文件的解析內容
find_all方法解析:
find_all( name , attrs , recursive , text , **kwargs )
允許使用的過濾器有:字串,方法,正規表示式,列表,true
name -- tag的名稱
attrs -- 關鍵字比如id等,對於不能使用的屬性,可以構造字典
#data_soup.find_all(attrs=)
class_ -- 對應class名稱
#css_soup.find_all("p", class_="body strikeout")
text -- 對應字串內容
#soup.find_all("a", text="elsie")
limit -- 設定搜尋的數量
recursive --設定是否只搜尋直接子節點
BeautifulSoup學習筆記
coding utf 8 import requests from bs4 import beautifulsoup 發出請求獲得html原始碼的函式 defget html url 偽裝成瀏覽器訪問 headers resp requests.get url,headers headers tex...
學習日記 使用BeautifulSoup爬取小說
半個月前入坑了python,近幾天看到csdn上有一些關於美麗的湯 beautifulsoup 的介紹和使用方法,於是自己也試著寫了乙個爬蟲。小白的學習日記,若有不當之處,歡迎大神們指點!使用python版本 python3.8 隨便在網上搜了個 試著爬下來。鏈結 檢視網頁的源 發現文章內容都是p標...
bs4 beautifulsoup學習筆記
todo 用requests庫獲取網頁html r requests.get demo r.text對demo進行html的解析 soup beautifulsoup demo,html.parser 格式化html列印出來 print print soup.prettify 列印title標籤 p...