作業來自:
1. 簡單說明爬蟲原理
2. 理解爬蟲開發過程
1).簡要說明瀏覽器工作原理;
2).使用 requests 庫抓取**資料;
requests.get(url) 獲取校園新聞首頁html**
3).了解網頁
寫乙個簡單的html檔案,包含多個標籤,類,id
4).使用 beautiful soup 解析網頁;
通過beautifulsoup(html_sample,'html.parser')把上述html檔案解析成dom tree
select(選擇器)定位資料
找出含有特定標籤的html元素
找出含有特定類名的html元素
找出含有特定id名的html元素
3.提取一篇校園新聞的標題、發布時間、發布單位、作者、點選次數、內容等資訊
如url = ''
要求發布時間為datetime型別,點選次數為數值型,其它是字串型別。import
requests
**:
import執行結果:requests
import
bs4from bs4 import
beautifulsoup as bs
from datetime import
datetime
defhtml(url):
response=requests.get(url=url)
response.encoding='
utf-8
'soup=bs(response.text,'
html.parser')
return
soup
url="
"url2='
'#標題title=html(url).select('
div .show-title
')[0].text
print("
"+title)#時間
time1=html(url).select('
div .show-info
')[0].text.split()[0].split('
:')[1]
time2=html(url).select('
div .show-info
')[0].text.split()[1]
time=time1+ '
' +time2
print("
"+time)
#發布單位
comfrom=html(url).select('
div .show-info
')[0].text.split()[4].split('
:')[1]
print("
發布單位:
"+comfrom)#作者
write=html(url).select('
div .show-info
')[0].text.split()[2].split('
:')[1]
print("
"+write)
#點選次數
count=html(url2).text.split()[0].split('
html
')[-1]
ss="
()';
"for i in
ss: count=count.replace(i,''
)co=int(count)
print("
點選次數:
",co)#內容
cont=html(url).select('
div .show-content
')[0].text.replace('
。','\n'
)print("
新聞內容:")
(cont)
#字串轉化為data型別
now=datetime.strptime(time,'
%y-%m-%d %h:%m:%s')
(type(now))
#data轉化字串
now1=datetime.now()
now1=datetime.strftime(now1,'
%y-%m-%d %h:%m:%s
').format(y='
年',m='
月',d='
日',h='
時',m='
分',s='秒'
)print(now1)
理解爬蟲原理
本次作業 於 1.簡單說明爬蟲原理 請求 並提取資料的自動化流程 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 web瀏覽器提交請求後,通過http協議傳送給web伺服器。web伺服器接到後,進行事務處理,處理結果又通過http傳回給web瀏覽器,從而在web瀏覽器上顯示出所請求 的頁面。2 使...
理解爬蟲原理
本次作業 於 1.簡單說明爬蟲原理 爬蟲原理就是爬取網頁。2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 瀏覽器的主要功能是向伺服器發出請求,在瀏覽器中展示選擇的網路資源,一般資源就是html文件,也可以是pdf,imgage,或者其他型別,資源的位置由使用者使用uri 統一資源表示符 指定。2 ...
理解爬蟲原理
老師 missdu 提交作業 1.簡單說明爬蟲原理 爬蟲的原理是通過模擬請求的方式去訪問相關的開放頁面,通過 的方式去模擬觸發網頁的點選和跳轉,通過流的方式獲取到請求響應後的整個html資訊,再通過一些工具類去篩選這些資訊中包含的有用的資訊 2.理解爬蟲開發過程 1 簡要說明瀏覽器工作原理 遊覽器通...