資料解析 BeautifulSoup

2021-10-24 22:52:44 字數 1061 閱讀 2650

bs4資料解析:

例項化乙個beautifulsoup物件,並且將頁面遠嗎載入到該物件中。

通過呼叫beautifulsoup物件中相關屬性方法進行標籤定位,資料提取。

pip install bs4

pip install lxml 解析器

下面介紹乙個是從本地html文件中載入beautifulsoup物件中,乙個是從網際網路獲取的頁面原始碼,載入到beautifulsoup物件中,並通過lxml解析器進行解析

from bs4 import beautifulsoup

# 將本地的html文件中的資料載入到該物件中

fp =

open

("./text.html"

,'r'

,encoding=

'utf-8'

)soup = beautifulsoup(fp,

'lxml'

)# 將網際網路上獲取的頁面原始碼載入到該物件中

page_text = request.text

soup = beautifulsoup(page_text,

"lxml"

)

soup.tagname         # 標籤名稱,返回html第一次出現的tagname

soup.find(

)# find("tagname")等同於soup.tagname

# 屬性定位 soup.find('div',class_='song')

soup.find_all(

)# 返回符合要求所有標籤,返回的是乙個列表。

soup.select(

)# 類選擇器用<.>如soup.select('.tang'),返回的是乙個列表

# 獲取標籤之間的文字資料

--text/get_text(

): 可以獲取某乙個標籤中所有的文字內容

--string:只可以獲取該標籤下面直系的文字內容

# 獲取標籤中屬性值

soup.a[""]

# 跟屬性名稱即可

Python學習之BeautifulSoup庫詳解

beautifulsoup庫是解析 遍歷 維護 標籤樹 的功能庫 學習python爬蟲 有所幫助。beautifulsoup庫我們常稱之為bs4,匯入該庫為 from bs4 import beautifulsoup。其中,import beautifulsoup即主要用bs4中的beautiful...

python3安裝beautifulsoup全過程

1.環境變數 參考設定 python3環境變數設定 解壓安裝包至python安裝目錄下 3.在命令列進入beautifulsoup的安裝目錄下,輸入python setup.py install 安裝成功後,進入python lib site packages將bs4資料夾複製到lib資料夾下,將p...

mysql解析資料 解析資料儲存MySQL

為了適應不同專案對不同感興趣屬性的解析儲存,資料儲存結構採用縱向的屬性列表方式,即乙個url頁面多個屬性儲存多條記錄方式,並且按照text,html,data,num幾大典型型別分別對應儲存。create table crawl data url varchar 255 not null,code ...