用beautifulsoup查詢指定標籤(元素)的時候,有幾種方法:
soup=beautifulsoup(html)
1.soup.find_all
(tagname),返回乙個指定tag元素的列表
2.soup.select(selector),返回乙個指定tag元素的列表,是非常好用的方法,它支援大部分css選擇器(可在鏈結頁面內查詢"css選擇器"相關章節),如類選擇器,id選擇器,子代選擇器(但不支援直接子代選擇器)
例如可以這樣寫,soup.select('.listconent div ul li'),表示要查詢class='listcontent'的某個標籤下的div標籤的ul標籤下的所有li元素。
如果你想查詢class='listcontent'的某個標籤下的直接子代div標籤,soup.select('.listconent > div'),而jquery寫成$('.listconent > div')
3.你可以逐層訪問tag的子標籤[鏈結,可在鏈結頁面內查詢".contents 和 .children"章節],如 x.div.next_sibling.div.p.a.string
參考:
爬蟲Beautiful Soup的CSS選擇器
一 點睛 beautiful soup還提供了另外一種選擇器,那就是css選擇器。如果對web開發熟悉的話,那麼對css選擇器肯定也不陌生。如果不熟悉的話,可以參考了解。使用css選擇器時,只需要呼叫select 方法,傳入相應的css選擇器即可。二 基礎用法 1 html hello from b...
Python的BeautifulSoup庫的使用
python爬蟲的beautifulsoup庫的使用 以下為爬去985高校的例子 import requests from bs4 import beautifulsoup 從bs4中引入beautifulsoup庫 import re url r requests.get url soup bea...
(一)BeautifulSoup的安裝
確保必要的工作 已經安裝好python和pip 執行cmd,在命令列中輸入一下命令即可安裝成功。pip install beautifulsoup4 由於本人使用的是ubuntu,即主要講解的是ubuntu下的安裝,其實其他發行版本的安裝都是差不多的。安裝python 由於在ubuntu的發行版本中...