網路爬蟲基礎練習

0.可以新建乙個用於練習的html檔案，在瀏覽器中開啟。

1.利用requests.get(url)獲取網頁頁面的html檔案

import requests

newsurl=''

res = requests.get(newsurl) #返回response物件

res.encoding='utf-8'

2.利用beautifulsoup的html解析器，生成結構樹

from bs4 import beautifulsoup

soup = beautifulsoup(res.text,'html.parser')

3.找出特定標籤的html元素

soup.p #標籤名，返回第乙個

soup.head

soup.p.name #字串

soup.p. attrs #字典，標籤的所有屬性

soup.p. contents # 列表，所有子標籤

soup.p.text #字串

soup.p.string

soup.select(『li')

4.取得含有特定css屬性的元素

soup.select('#p1node')

soup.select('.news-list-title')

5.練習：

取出h1標籤的文字

#取出h1標籤的文字

for h1 in soup.find_all('h1'

print(h1.text)

結果：

取出a標籤的鏈結

#
取出a標籤的鏈結
for a in soup.find_all('a'
):    
print(a.attrs.get('
href
'))

結果：

取出所有li標籤的所有內容

#
取出所有li標籤的所有內容
for li in soup.find_all('li'
):    
print(li.contents)

結果：

取出第2個li標籤的a標籤的第3個div標籤的屬性

#
取出第2個li標籤的a標籤的第3個div標籤的屬性
print(soup.find_all('
li')[1].a.find_all('
div')[2].attrs)

結果：

#
print(soup.select('
.news-list-title
')[0].text)
print(soup.select('
li')[0].a.attrs['
href'])
print(soup.select('
.news-list-info > p
')[0].text)
print(soup.select('
.news-list-info > p
')[1].text)

結果：

網路爬蟲基礎練習

收藏0.可以新建乙個用於練習的html檔案，在瀏覽器中開啟。1.利用requests.get url 獲取網頁頁面的html檔案 import requests newsurl res requests.get newsurl 返回response物件 res.encoding utf 8 2.利用...

網路爬蟲基礎練習

0.可以新建乙個用於練習的html檔案，在瀏覽器中開啟。this is paragraph 1.段落2廣州商學院我校校長楊文軒教授講授新學期思政第一課 3月27日下午，我校校長楊文軒教授在第四教學樓310室為學生講授了新學期思政第一課 2018 03 28 馬克思主義學院 1.利用reques...

網路爬蟲基礎練習

1.利用requests.get url 獲取網頁頁面的html檔案，利用beautifulsoup的html解析器，生成結構樹 import requests from bs4 import beautifulsoup url res requests.get url res.encoding u...

網路爬蟲基礎練習

網路爬蟲基礎練習

網路爬蟲基礎練習

網路爬蟲基礎練習

相關推薦