import requests
from bs4 import beautifulsoup
def getsoup(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
# print(r.text) # **很亂
soup = beautifulsoup(r.text, "html.parser") # parser分析器、解析器
# print(soup.prettify()) # 美化後的網頁**
print(soup.a) # 獲取標籤內容
print(soup.a.name) # 獲取標籤名字
print(soup.a.parent.name)
print(soup.a.parent.parent.name)
tag = soup.a
print(type(tag)) # tag屬性
print(tag.attrs) # 列印屬性,無論存在屬性都會返回乙個字典型別
print(type(tag.attrs)) # 列印屬性型別
print(tag.attrs['class']) # 列印class屬性的屬性值
print(type(tag.attrs['class']))
print(tag.string) # 獲取字串
except expression as identifier:
print("錯誤")
if __name__ == "__main__":
url = ""
getsoup(url)
BS4爬取豆瓣電影
爬取豆瓣top250部電影 建立表 connect.py from sqlalchemy import create engine hostname localhost port 3306 username root password 123456 database douban db url my...
爬蟲 bs4 爬取扇貝 python 單詞書
本例不涉及cookie,即抓取的資源無需登入認證。爬蟲主要做兩件事,乙個是抓取請求鏈結,另乙個是分析響應的資料。鑑於扇貝單詞書的詞串頁中的頁碼是通過js動態生成,直接抓取頁面內容是不能獲取,因此程式模擬了它的分頁請求路徑 向目標url發請求,拉取響應體 分析頁面 爬取指定內容 抓取鏈結 分析資料 資...
基於bs4的網頁遊歷
1.html的基本格式 1.下行遊歷。1.1 contents import requests r requests.get demo r.text from bs4 import beautifulsoup soup beautifulsoup demo,html.parser print sou...