關於BeautifulSoup庫查詢

每次都記不住該怎麼用

留存一下

如何抓取src=「...」裡面的資料？

前序格式

import requests
from bs4 import beautifulsoup
import re
url=""
r=requests.get(url,headers=headers).text
r_bs=beautifulsoup(r, "html.parser")

下面就要開始解析

方法1

for i in r_bs.find_all("script"):
print(i.get("src"))

可以找到所有script標籤下，提取屬性為src的屬性值

方法2

print(r_bs.find_all("script")[1].get("src"))
-->    ../ext/linesale.js?v=0.73926300 1538199432

因為find_all返回的是list型別，可以用[n]來查詢具體某乙個，當然，如果網頁**改變了，那就得重新寫，這點兒沒有正則的好

接下來需要將 ..替換成官網**

關於BeautifulSoup中字元的編碼

在使用beautifulsoup解析html檔案的過程中，經常使用到類似如下的語句 soup beautifulsoup html for string in soup.strings string string.strip 注意，上述中，沒有對string的編碼進行任何的設定，所以string的...

爬蟲筆記關於Beautiful Soup 4

再使用beautiful soup 4時遇到了一些問題，找到了解決方法，通過本博文將遇到的問題和解決方法記錄下來，方便回顧也希望能幫助大家解決類似問題。遇到這個錯誤的原因是文件包含以完全不同的編碼編寫的文字這時候需要待解析文字的指定編碼方式，通常可以在網頁原始碼中找到網頁的編碼方式，就像下圖接...

BeautifulSoup常用方法

1.初始化 2.查詢指定標籤 eg 要找到符合的所有標籤 p.findall div 反覆利用標籤特徵可以找到最終需要的標籤 3.直接加標籤名可以找到所有子標籤 eg 找到所有標籤 p.td 4.直接以字典形式，可以訪問標籤內對應屬性的值 eg 要找到中href 的值 www.csdn.net p...

關於BeautifulSoup庫查詢

關於BeautifulSoup中字元的編碼

爬蟲筆記 關於Beautiful Soup 4

BeautifulSoup常用方法

相關推薦

爬蟲筆記關於Beautiful Soup 4