1.引用一段**
import re
html = '\
目的是通過第一次soup.find按class粗略篩選並通過soup.find_all篩選出列表中的a標籤並讀入href和title屬性
\但是由於目標鏈結可能有鏈結,而這是我不想要的.請問如何去除?
'
reg = re.compile('<[^>]*>')
print(reg.sub('',html))
2.重點
reg = re.compile('<[^>]*>')
print(reg.sub('',html))
3.例項
開始
import requests
import re
from bs4 import beautifulsoup
retxt=open('test.log','r')
for x in range(250,999):
#rurl=rurl.strip('\n')
url=''.format(x)
#print(url)
try:
response=requests.get(url,timeout=1).text
#print(response)
soup=beautifulsoup(response,features="lxml")
result=soup.find_all('span',attrs=)
print('學校:'.format(result))
except requests.exceptions.invalidurl:
pass
except requests.exceptions.connectionerror:
pass
except requests.exceptions.readtimeout:
pass
輸出
學校:[杭州師範大學
]學校:[
去除標籤之後
import requests
import re
from bs4 import beautifulsoup
#retxt=open('test.log','r')
for x in range(250,999):
#rurl=rurl.strip('\n')
url=''.format(x)
#print(url)
try:
response=requests.get(url,timeout=1).text
#print(response)
soup=beautifulsoup(response,features="lxml")
result=soup.find_all('span',attrs=)
reg=re.compile('<[^>]*>',re.s)
print('學校:'.format(reg.sub('',str(result))))
except requests.exceptions.invalidurl:
pass
except requests.exceptions.connectionerror:
pass
except requests.exceptions.readtimeout:
pass
輸出
學校:
學校:學校:[
上海電子資訊職業技術學院
]學校:學校:[
超星大學
python3去掉空格 python如何去掉空格
詳細內容 a ddd dfe dfd efre ddd 1.strip 把頭和尾的空格去掉a.strip ddd dfe dfd efre ddd 2.lstrip 把左邊的空格去掉in 5 a.lstrip out 5 ddd dfe dfd efre ddd 3.rstrip 把右邊的空格去掉 ...
Python3讀取HTML檔案
在學習 designing machine learning systems with python 中文名 機器學習系統設計 python語言實現 一書中,在第三章第二節第五小節 p68 讀取html文件資料的 中。我發現有些不太懂,就把學習過程記錄下來。首先,如果你在python3.6環境中照搬...
Python3 正則匹配問題
python3通過re模組提供對正規表示式的支援。使用re的一般步驟是先將正規表示式的字串形式編譯為pattern例項,然後使用pattern例項處理文字並獲得匹配結果 乙個match例項 最後使用match例項獲得資訊,進行其他的操作。舉個例子 import re pattern re.compi...