python爬取學校新聞

2021-10-14 04:01:52 字數 1073 閱讀 2679

這是我做的第乙個python爬蟲專案,在這裡與大家分享出來~

目標**:
下面展示一下我的**

import requests

from bs4 import beautifulsoup

sessions = requests.

session

()

i =1 # 對應第1頁資訊

page =

'_'+

str(i)

if i ==1:

newsmainurl =

''elif i !=1:

newsmainurl =

''+ page +

'.html'

newsmainheader =

# get 請求

rsp = sessions.

get(newsmainurl, headers=newsmainheader)

# 獲取網頁

content = rsp.content.

decode

('utf-8'

)# soup用來解析網頁的

soup =

beautifulsoup

(content,

'html.parser'

)# 獲取所有dvi 並且calss為con-right fr"的標籤

dvs = soup.

find_all

('div'

, class_=

"list_main_content"

)for dv in dvs:

# 獲取div中所有的a標籤

items = dv.

find_all

('a'

)for item in items:

print

(item.contents)

遇到了一丟丟問題就是不知道怎麼樣實現翻頁,只能爬取兩頁的內容,

Python 對新聞的爬取

今天接了乙個python小指令碼,發來一起分享。要求 廢話不說,直接上 import os import requests from lxml import etree from bs4 import beautifulsoup import re import urllib.request 獲取原...

爬取網易新聞

爬取網易新聞 在本小節的內容中呢,筆者將會給大家講述如何去過濾我們所不需要的內容。下面的例子,是本人在爬取網易新聞時,遇到的乙個小問題,在定位元素之後,進行列印的時候,出現了部分內容無法正常解析。筆者也是進行了很長時間的嘗試,請教了很多人,才得到的三種方法。我們一起來看。通過寫入檔案的方法過濾元素 ...

爬取新聞列表

獲取單條新聞的 標題 鏈結 時間 內容 點選次數,幷包裝成乙個函式。獲取乙個新聞列表頁的所有新聞的上述詳情,幷包裝成乙個函式。獲取所有新聞列表頁的 呼叫上述函式。完成所有校園新聞的爬取工作。完成自己所選其他主題相應資料的爬取工作。import requests import refrom bs4 i...