理解爬蟲原理

2022-02-16 09:28:05 字數 2437 閱讀 8659

本次作業**於:

1. 簡單說明爬蟲原理

請求**並提取資料的自動化流程

2. 理解爬蟲開發過程

1).簡要說明瀏覽器工作原理;

web瀏覽器提交請求後,通過http協議傳送給web伺服器。web伺服器接到後, 進行事務處理,處理結果又通過http傳回給web瀏覽器,從而在web瀏覽器上顯示出所請求

的頁面。

2).使用 requests 庫抓取**資料;

requests.get(url) 獲取校園新聞首頁html**

import

requests

res=requests.get('

')res.encoding = '

utf-8

'

3).了解網頁

寫乙個簡單的html檔案,包含多個標籤,類,id

html = ' \\\

\this is link1\

this is link2\

\ '4).使用 beautiful soup 解析網頁;

通過beautifulsoup(html_sample,'html.parser')把上述html檔案解析成dom tree

select(選擇器)定位資料

找出含有特定標籤的html元素

找出含有特定類名的html元素

找出含有特定id名的html元素

from bs4 import

beautifulsoup

html = '\\\\

this is link1\

this is link2\

\'soups=beautifulsoup(html,'

html.parser')

a=soups.a

h=soups.select('h1'

)l=soups.select('

.link')

i=soups.select('

#link2')

print

(soups)

print(i)

執行截圖:

3.提取一篇校園新聞的標題、發布時間、發布單位、作者、點選次數、內容等資訊

如url = ''

要求發布時間為datetime型別,點選次數為數值型,其它是字串型別。

import

requests

from bs4 import

beautifulsoup

from datetime import

datetime

url="

"res=requests.get(url)

res.encoding='

utf-8

'soup=beautifulsoup(res.text,'

html.parser

')#使用指定解析器解析獲得res文字

title=soup.select('

.show-title

')[0].text

context=soup.select('

#content

')[0].text.strip()

clickurl="

"click=requests.get(clickurl).text.split('

.html

')[-1][2:-3]

author=soup.select('

.show-info

')[0].text.split()[2]

post=soup.select('

.show-info

')[0].text.split()[4]

time=soup.select('

.show-info

')[0].text.split()[0:2]

time='

'.join(time)

print("

".format(title))

print

(time)

print

(author)

print

(post)

print("

點選次數:{}

".format(click))

print("

內容:{}

".format(context))

#times=time.strftime('%y%m%d %h%m%s').format(y='年',m='月',d='日',h='時',f='分',s='秒')
執行截圖:

理解爬蟲原理

本次作業 於 1.簡單說明爬蟲原理 爬蟲原理就是爬取網頁。2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 瀏覽器的主要功能是向伺服器發出請求,在瀏覽器中展示選擇的網路資源,一般資源就是html文件,也可以是pdf,imgage,或者其他型別,資源的位置由使用者使用uri 統一資源表示符 指定。2 ...

理解爬蟲原理

老師 missdu 提交作業 1.簡單說明爬蟲原理 爬蟲的原理是通過模擬請求的方式去訪問相關的開放頁面,通過 的方式去模擬觸發網頁的點選和跳轉,通過流的方式獲取到請求響應後的整個html資訊,再通過一些工具類去篩選這些資訊中包含的有用的資訊 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 遊覽器通...

理解爬蟲原理

1.簡單說明爬蟲原理 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 url解析 dns解析查詢網域名稱ip位址,網路連線發起http請求,http報文傳輸過程,伺服器接收資料,伺服器響應請求 mvc,伺服器返回資料,客戶端接收資料,瀏覽器載入 渲染頁面,列印繪製輸出所看到的網頁。2 使用 req...