import requestsimport re
import bs4
from bs4 import beautifulsoup as bs
for i in range(1,11):#獲取11頁的新聞資料
if i==1:
url = ""
else:
url=""+str(i)+".html"
r=requests.get(url)#獲取每一頁的鏈結
r.encoding='utf-8'#轉化編碼格式
soup=bs(r.text,'html.parser')#使用beautifulsoup對資料進行格式化處理
a=soup.select('.news-list li a ')#獲取html中的新聞頁所在的a標籤
for j in a:
w=j.get('href')#獲取鏈結
w1=requests.get(w)
w1.encoding='utf-8'#轉換編碼格式
soup=bs(w1.text,'html.parser')
c=soup.select('.show-content')
d=c[0].get_text()#獲取文字
path=r"c:\users\administrator\desktop\zcy\text"#設定儲存位址
f=open(path+"\\"+w.split('/')[-1]+'.txt','a+',encoding='utf-8')#開啟檔案
f.write(d)#把資料寫進檔案
f.close()#關閉
e =soup.select('div[style="text-align: center;"] img')#獲取所在標籤
for z in e:
r3=z.get('src')
r4=requests.get(r3)
f=open(path1+"\\"+r3.split('/')[-1],'wb')
f.write(r4.content)
r.close()
爬取某學校官網通知
需求 有時候對於學生黨來說,每次大考之後,查分數都是特別心急,特別是對於學校官網的通知等,本筆記主要關注這一點,以下是實現內容。使用 urllib 和 beautifulsoup 庫實現 import urllib.request import urllib.parse from bs4 impor...
利用Python網路爬蟲爬取學校官網十條標題
利用python網路爬蟲爬取學校官網十條標題 案例 author j date 2018 03 06 匯入需要用到的庫檔案 import urllib.request import reimport pymysql 建立乙個類用於獲取學校官網的十條標題 class getnewstitle 建構函式...
抓取學校官網資訊
import re import requests import re import requests def getpages url headers r requests.get url,headers headers r.raise for status return r.text def g...