import re
import requests
import re
import requests
def getpages(url):
headers =
r = requests.get(url,headers = headers)
r.raise_for_status()
return r.text
def getnews1(html,infolist):
s = re.findall(r'href=".*?".*?title=".*?"',html)
for i in range(len(s)):
news = eval((s[i].split(' ')[0]).split('=')[1] + '=' + (s[i].split(' ')[0]).split('=')[2])
'''news_ = s.split(' ')[0]
for j in range(len(news_)):
if j > 4:
news = news[j]
'''titles = s[i].split(' ')[-1]
def printnews(infolist):
contents =
count = 0
root = 'c://content//'
headers =
for i in infolist:
path = root + str(count) + '.txt'
url = '' + i[1]
newscontent = requests.get(url,headers = headers)
newscontents = re.findall(r'span style=".*?".*?\',newscontent.text)
for j in range(len(newscontents)):
count +=1
with open(path , 'a') as f:
#for k in contents:
# f.write(k)
f.write(str(contents))
#f.writelines(newscontent)
f.close()
print('列印成功')
def main():
url1 = 'bigclass.jsp?bigclassid=10'
url2 = 'bigclass.jsp?bigclassid=29'
infolist1 =
infolist2 =
depth = 10
for i in range(depth):
if i<2:
url11 = url1
url22= url2
else:
url11 = url1 + '&showitemnumber=20&pagenumber' + str(i)
url22 = url2 + '&showitemnumber=10&pagenumber' + str(i)
html1 = getpages(url11)
html2 = getpages(url22)
getnews1(html1,infolist1)
getnews1(html2,infolist2)
printnews(infolist1)
printnews(infolist2)
main()
這段**是有點缺陷的,儲存時會出現些問題,希望大神指教
**修改的部分,儲存出現的問題就解決了
在這裡插入**片
for i in infolist:
path = root + str(count) + '.txt'
url = '' + i[1]
newscontent = requests.get(url,headers = headers)
newscontents = re.findall(r'span style=".*?".*?\',newscontent.text)
for j in range(len(newscontents)):
count +=1
with open(path , 'a') as f:
f.write(str(contents))
#f.writelines(newscontent)
f.close()
print('列印成功')
ps製作學校官網總結
廣東資訊科技職業培訓學院廣信it學院 技術文獻總結裝訂冊 年級18級 姓名 王浩 性別 男 籍貫 湖南 本技術文獻起止時間2019年1月18日 2019年1月19日文獻目錄順序 文獻編號 文獻型別 題目 開發工具 關鍵技術 01 專題技術 ps製作學校 02 專題技術 食品 和學校 的區別 評 分文...
學校官網資料的爬取
import requests import re import bs4 from bs4 import beautifulsoup as bs for i in range 1,11 獲取11頁的新聞資料 if i 1 url else url str i html r requests.get ...
食品官網與學校官網的差異
學校的官網大部分都是比較嚴肅的,所以裡面沒有什麼設計感比較強的東西,之所以不能用那些花裡胡哨的顏色,是因為學校是乙個端莊 嚴肅 嚴謹的地方 但是在做學校官網的時候素材選圖和主題顏色也很重要,首先要跟官網的主題統一,上面這個學校官網的主題色是藍色,它最主要是使用了學校的校徽色,藍色使用到學校官網上使官...