13 資料提取2 beautifulsoup

目的：使用beautifulsoup提取爬下來的資料

通常多為網頁資料，html文字

在這裡做個簡單的介紹

<>   這種形式的叫做雙標籤
p標籤， p 標籤的名字 ，其他同理可推
...   class 叫做屬性， 「one」 叫做屬性值， ... 內容

# 使用豆瓣電影為例
import requests
from fake_useragent import useragent
from bs4 import beatuifulsoup
ua = useragent()
headers = 
url = ""
response = requests.get(url , headers = headers)
soup = beautifulsoup(response.content.decode(),"html.parser")  # 至關重要，轉換成soup文件

# 接上 soup.a # 返回找的第乙個a標籤內容

soup.find_all("a") # 返回所有 a 標籤的列表，返回為python列表，操作與列表相同

soup.a["class"]  # 返回第乙個a標籤，class屬性對應的值
soup.a["href"]  # 返回第乙個a標籤，href屬性對應的值

soup.a.string  # 返回第乙個a標籤的內容

find_all( name , attrs , recursive , string , **kwargs )

這其中只需要關注兩個引數： name , **kwargs

name : 標籤的名字

soup.find_all("div" , class_ = "item"})  # 返回乙個列表，長度25

引數是乙個字串，形式為css選擇器

soup.select("a[href]")  # 返回乙個列表

NYU V2 RawDataset的資料提取

raw dataset 為以下形式 bedroom 0001 bedroom 0001 a 1294886363.011060 3164794231.dump bedroom 0001 a 1294886363.016801 3164794231.dump bedroom 0001 d 129488...

13 資料庫查詢語言2

dim numvisits numvisits 0 end if 這裡的 999 就是你要設定的計數器初始值，如此一來問題就迎刃而解了。我非常感謝這位姓康的朋友給我指出了這個錯誤，雖然這只是乙個很小的漏洞，但我們在共同學程式寫程式的過程中非常需要這種嚴謹細緻的作風，希望今後朋友們們一旦發現文中的錯誤...

大資料2班13周堂測題解

1.十進位制數轉二進位制數很常規的乙個題，取餘存進陣列然後輸出就好了。除二反序取餘法十進位制轉二進位制的判斷條件是商不為0，那麼只要商為零，就是迴圈結束的標誌。include stdio.h void binary int n int j for j i 1 j 0 j printf lld ...

13 資料提取2 beautifulsoup

NYU V2 RawDataset的資料提取

13 資料庫查詢語言2

大資料2班13周堂測題解

相關推薦