1. 簡單說明爬蟲原理
(1)模擬計算機對伺服器發起request請求;
(2)接收伺服器的response內容並解析、提取所需的資訊。
2. 理解爬蟲開發過程
1).簡要說明瀏覽器工作原理;
瀏覽器工作原理的實質就是實現http協議的通訊,具體過程如下:
2).使用 requests 庫抓取**資料;
requests.get(url) 獲取校園新聞首頁html**
import requests3).了解網頁寫乙個簡單的html檔案,包含多個標籤,類,idres=requests.get('')
res.encoding='utf-8'
res.text
this is link14).使用 beautiful soup 解析網頁;通過beautifulsoup(html_sample,'html.parser')把上述html檔案解析成dom treethis is link2
this is info
'
soup=beautifulsoup(html_hjy,'html.parser')select(選擇器)定位資料
t = news.select('#title')找出含有特定標籤的html元素l = news.select('.link')
t=soup.select('h1')[0].text找出含有特定類名的html元素print(t)
for i in range(len(soup.select('.link'))):找出含有特定id名的html元素d=soup.select('.link')[i].text
print(d)
3.提取一篇校園新聞的標題、發布時間、發布單位
import requestsimport bs4
from
bs4 import beautifulsoup
#獲取網頁
url="
";r=requests.get
(url);
text=r.text;
#print(text);
#解析網頁
soup=beautifulsoup(text,"
html.parser");
#新聞標題
title=soup.select("
.show-title");
print(title);
#發布時間與發布單位
time=soup.select("
.show-info");
print(time);
理解爬蟲原理
本次作業 於 1.簡單說明爬蟲原理 請求 並提取資料的自動化流程 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 web瀏覽器提交請求後,通過http協議傳送給web伺服器。web伺服器接到後,進行事務處理,處理結果又通過http傳回給web瀏覽器,從而在web瀏覽器上顯示出所請求 的頁面。2 使...
理解爬蟲原理
本次作業 於 1.簡單說明爬蟲原理 爬蟲原理就是爬取網頁。2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 瀏覽器的主要功能是向伺服器發出請求,在瀏覽器中展示選擇的網路資源,一般資源就是html文件,也可以是pdf,imgage,或者其他型別,資源的位置由使用者使用uri 統一資源表示符 指定。2 ...
理解爬蟲原理
老師 missdu 提交作業 1.簡單說明爬蟲原理 爬蟲的原理是通過模擬請求的方式去訪問相關的開放頁面,通過 的方式去模擬觸發網頁的點選和跳轉,通過流的方式獲取到請求響應後的整個html資訊,再通過一些工具類去篩選這些資訊中包含的有用的資訊 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 遊覽器通...