每次都記不住該怎麼用
留存一下
如何抓取src=「...」裡面的資料?
前序格式
import requests
from bs4 import beautifulsoup
import re
url=""
r=requests.get(url,headers=headers).text
r_bs=beautifulsoup(r, "html.parser")
下面就要開始解析
方法1
for i in r_bs.find_all("script"):
print(i.get("src"))
可以找到所有script標籤下,提取屬性為src的屬性值
方法2
print(r_bs.find_all("script")[1].get("src"))
--> ../ext/linesale.js?v=0.73926300 1538199432
因為find_all返回的是list型別,可以用[n]來查詢具體某乙個,當然,如果網頁**改變了,那就得重新寫,這點兒沒有正則的好
接下來需要將 ..替換成官網**
關於BeautifulSoup中字元的編碼
在使用beautifulsoup解析html檔案的過程中,經常使用到類似如下的語句 soup beautifulsoup html for string in soup.strings string string.strip 注意,上述 中,沒有對string的編碼進行任何的設定,所以string的...
爬蟲筆記 關於Beautiful Soup 4
再使用beautiful soup 4時遇到了一些問題,找到了解決方法,通過本博文將遇到的問題和解決方法記錄下來,方便回顧也希望能幫助大家解決類似問題。遇到這個錯誤的原因是 文件包含以完全不同的編碼編寫的文字 這時候需要待解析文字的指定編碼方式,通常可以在網頁原始碼中找到網頁的編碼方式,就像下圖 接...
BeautifulSoup常用方法
1.初始化 2.查詢指定標籤 eg 要找到符合的所有標籤 p.findall div 反覆利用標籤特徵可以找到最終需要的標籤 3.直接加標籤名可以找到所有子標籤 eg 找到所有標籤 p.td 4.直接以字典形式,可以訪問標籤內對應屬性的值 eg 要找到 中href 的值 www.csdn.net p...