13 資料提取2 beautifulsoup

2022-07-10 12:12:13 字數 1111 閱讀 8865

目的:使用beautifulsoup提取爬下來的資料

通常多為網頁資料,html文字

在這裡做個簡單的介紹

<>   這種形式的叫做雙標籤

p標籤, p 標籤的名字 ,其他同理可推

... class 叫做屬性, 「one」 叫做屬性值, ... 內容

# 使用豆瓣電影為例

import requests

from fake_useragent import useragent

from bs4 import beatuifulsoup

ua = useragent()

headers =

url = ""

response = requests.get(url , headers = headers)

soup = beautifulsoup(response.content.decode(),"html.parser") # 至關重要,轉換成soup文件

# 接上

soup.a # 返回找的第乙個a標籤內容

soup.find_all("a") # 返回所有 a 標籤的列表, 返回為python列表,操作與列表相同

soup.a["class"]  # 返回第乙個a標籤,class屬性對應的值

soup.a["href"] # 返回第乙個a標籤,href屬性對應的值

soup.a.string  # 返回第乙個a標籤的內容
find_all( name , attrs , recursive , string , **kwargs )

這其中只需要關注兩個引數: name , **kwargs

name : 標籤的名字

soup.find_all("div" , class_ = "item"})  # 返回乙個列表,長度25
引數是乙個字串,形式為css選擇器

soup.select("a[href]")  # 返回乙個列表

NYU V2 RawDataset的資料提取

raw dataset 為以下形式 bedroom 0001 bedroom 0001 a 1294886363.011060 3164794231.dump bedroom 0001 a 1294886363.016801 3164794231.dump bedroom 0001 d 129488...

13 資料庫查詢語言2

dim numvisits numvisits 0 end if 這裡的 999 就是你要設定的計數器初始值,如此一來問題就迎刃而解了。我非常感謝這位姓康的朋友給我指出了這個錯誤,雖然這只是乙個很小的漏洞,但我們在共同學程式寫程式的過程中非常需要這種嚴謹細緻的作風,希望今後朋友們們一旦發現文中的錯誤...

大資料2班13周堂測題解

1.十進位制數轉二進位制數 很常規的乙個題,取餘存進陣列然後輸出就好了。除二反序取餘法 十進位制轉二進位制 的判斷條件是商不為0,那麼只要商為零,就是迴圈結束的標誌。include stdio.h void binary int n int j for j i 1 j 0 j printf lld ...