本次作業**於:
1. 簡單說明爬蟲原理
爬蟲原理就是爬取網頁。
2. 理解爬蟲開發過程
1).簡要說明瀏覽器工作原理;
瀏覽器的主要功能是向伺服器發出請求,在瀏覽器中展示選擇的網路資源,一般資源就是html文件,也可以是pdf, imgage,或者其他型別,資源的位置由使用者使用uri(統一資源表示符)指定。
2).使用 requests 庫抓取**資料;
requests.get(url) 獲取校園新聞首頁html**
import3).了解網頁requests
res1=requests.get('
')res1.encoding = '
utf-8
'
寫乙個簡單的html檔案,包含多個標籤,類,id
html_sample = '\\\\4).使用 beautiful soup 解析網頁;this is link1\
this is link2\\'
通過beautifulsoup(html_sample,'html.parser')把上述html檔案解析成dom tree
importselect(選擇器)定位資料bs4from bs4 import
beautifulsoup
soup1 = beautifulsoup(res1.text,'
html.parser
')
找出含有特定標籤的html元素
soups = beautifulsoup(html_sample,'找出含有特定類名的html元素html.parser')
soups.h1
soupn.select('找出含有特定id名的html元素.show-info
')[0].text.split()[2].split('
:')[1]
soupn.select('3.提取一篇校園新聞的標題、發布時間、發布單位、作者、點選次數、內容等資訊#content
')[0].text
如url = ''
要求發布時間為datetime型別,點選次數為數值型,其它是字串型別。
import requests
from bs4 import beautifulsoup
res1 = requests.get('')
res1.encoding = 'utf-8'
soup1 = beautifulsoup(res1.text,'html.parser')
title = soup1.select('.show-title')[0].text
newstime = soup1.select('.show-info')[0].text[16:24]
newsdate = soup1.select('.show-info')[0].text.split()[0].split(':')[1]
actor = soup1.select('.show-info')[0].text.split()[2].split(':')[1]
newssourse = actor = soup1.select('.show-info')[0].text.split()[4].split(':')[1]
detail = soup1.select('.show-content p')[0].text
clickurl = ''
clickurl = ''
a = int (requests.get(clickurl).text.split('.html')[-1].split("'")[1])
a
理解爬蟲原理
本次作業 於 1.簡單說明爬蟲原理 請求 並提取資料的自動化流程 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 web瀏覽器提交請求後,通過http協議傳送給web伺服器。web伺服器接到後,進行事務處理,處理結果又通過http傳回給web瀏覽器,從而在web瀏覽器上顯示出所請求 的頁面。2 使...
理解爬蟲原理
老師 missdu 提交作業 1.簡單說明爬蟲原理 爬蟲的原理是通過模擬請求的方式去訪問相關的開放頁面,通過 的方式去模擬觸發網頁的點選和跳轉,通過流的方式獲取到請求響應後的整個html資訊,再通過一些工具類去篩選這些資訊中包含的有用的資訊 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 遊覽器通...
理解爬蟲原理
1.簡單說明爬蟲原理 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 url解析 dns解析查詢網域名稱ip位址,網路連線發起http請求,http報文傳輸過程,伺服器接收資料,伺服器響應請求 mvc,伺服器返回資料,客戶端接收資料,瀏覽器載入 渲染頁面,列印繪製輸出所看到的網頁。2 使用 req...