抓取學校官網資訊

2021-09-01 12:54:10 字數 2307 閱讀 4098

import re

import requests

import re

import requests

def getpages(url):

headers =

r = requests.get(url,headers = headers)

r.raise_for_status()

return r.text

def getnews1(html,infolist):

s = re.findall(r'href=".*?".*?title=".*?"',html)

for i in range(len(s)):

news = eval((s[i].split(' ')[0]).split('=')[1] + '=' + (s[i].split(' ')[0]).split('=')[2])

'''news_ = s.split(' ')[0]

for j in range(len(news_)):

if j > 4:

news = news[j]

'''titles = s[i].split(' ')[-1]

def printnews(infolist):

contents =

count = 0

root = 'c://content//'

headers =

for i in infolist:

path = root + str(count) + '.txt'

url = '' + i[1]

newscontent = requests.get(url,headers = headers)

newscontents = re.findall(r'span style=".*?".*?\',newscontent.text)

for j in range(len(newscontents)):

count +=1

with open(path , 'a') as f:

#for k in contents:

# f.write(k)

f.write(str(contents))

#f.writelines(newscontent)

f.close()

print('列印成功')

def main():

url1 = 'bigclass.jsp?bigclassid=10'

url2 = 'bigclass.jsp?bigclassid=29'

infolist1 =

infolist2 =

depth = 10

for i in range(depth):

if i<2:

url11 = url1

url22= url2

else:

url11 = url1 + '&showitemnumber=20&pagenumber' + str(i)

url22 = url2 + '&showitemnumber=10&pagenumber' + str(i)

html1 = getpages(url11)

html2 = getpages(url22)

getnews1(html1,infolist1)

getnews1(html2,infolist2)

printnews(infolist1)

printnews(infolist2)

main()

這段**是有點缺陷的,儲存時會出現些問題,希望大神指教

**修改的部分,儲存出現的問題就解決了

在這裡插入**片

for i in infolist:

path = root + str(count) + '.txt'

url = '' + i[1]

newscontent = requests.get(url,headers = headers)

newscontents = re.findall(r'span style=".*?".*?\',newscontent.text)

for j in range(len(newscontents)):

count +=1

with open(path , 'a') as f:

f.write(str(contents))

#f.writelines(newscontent)

f.close()

print('列印成功')

ps製作學校官網總結

廣東資訊科技職業培訓學院廣信it學院 技術文獻總結裝訂冊 年級18級 姓名 王浩 性別 男 籍貫 湖南 本技術文獻起止時間2019年1月18日 2019年1月19日文獻目錄順序 文獻編號 文獻型別 題目 開發工具 關鍵技術 01 專題技術 ps製作學校 02 專題技術 食品 和學校 的區別 評 分文...

學校官網資料的爬取

import requests import re import bs4 from bs4 import beautifulsoup as bs for i in range 1,11 獲取11頁的新聞資料 if i 1 url else url str i html r requests.get ...

食品官網與學校官網的差異

學校的官網大部分都是比較嚴肅的,所以裡面沒有什麼設計感比較強的東西,之所以不能用那些花裡胡哨的顏色,是因為學校是乙個端莊 嚴肅 嚴謹的地方 但是在做學校官網的時候素材選圖和主題顏色也很重要,首先要跟官網的主題統一,上面這個學校官網的主題色是藍色,它最主要是使用了學校的校徽色,藍色使用到學校官網上使官...