Python3正則去掉HTML標籤

1.引用一段**

import re
html = '\
目的是通過第一次soup.find按class粗略篩選並通過soup.find_all篩選出列表中的a標籤並讀入href和title屬性
\但是由於目標鏈結可能有鏈結,而這是我不想要的.請問如何去除?

'
reg = re.compile('<[^>]*>')

print(reg.sub('',html))

2.重點

reg = re.compile('<[^>]*>')
print(reg.sub('',html))

3.例項

開始

import requests
import re
from bs4 import beautifulsoup
retxt=open('test.log','r')
for x in range(250,999):
#rurl=rurl.strip('\n')
url=''.format(x)
#print(url)
try:
response=requests.get(url,timeout=1).text
#print(response)
soup=beautifulsoup(response,features="lxml")
result=soup.find_all('span',attrs=)
print('學校：'.format(result))
except requests.exceptions.invalidurl:
pass
except requests.exceptions.connectionerror:
pass
except requests.exceptions.readtimeout:
pass

輸出

學校：[杭州師範大學
]學校：[

去除標籤之後

import requests
import re
from bs4 import beautifulsoup
#retxt=open('test.log','r')
for x in range(250,999):
#rurl=rurl.strip('\n')
url=''.format(x)
#print(url)
try:
response=requests.get(url,timeout=1).text
#print(response)
soup=beautifulsoup(response,features="lxml")
result=soup.find_all('span',attrs=)
reg=re.compile('<[^>]*>',re.s)
print('學校：'.format(reg.sub('',str(result))))
except requests.exceptions.invalidurl:
pass
except requests.exceptions.connectionerror:
pass
except requests.exceptions.readtimeout:
pass

輸出

學校：
學校：學校：[
上海電子資訊職業技術學院
]學校：學校：[
超星大學

python3去掉空格 python如何去掉空格

詳細內容 a ddd dfe dfd efre ddd 1.strip 把頭和尾的空格去掉a.strip ddd dfe dfd efre ddd 2.lstrip 把左邊的空格去掉in 5 a.lstrip out 5 ddd dfe dfd efre ddd 3.rstrip 把右邊的空格去掉 ...

Python3讀取HTML檔案

在學習 designing machine learning systems with python 中文名機器學習系統設計 python語言實現一書中，在第三章第二節第五小節 p68 讀取html文件資料的中。我發現有些不太懂，就把學習過程記錄下來。首先，如果你在python3.6環境中照搬...

Python3 正則匹配問題

python3通過re模組提供對正規表示式的支援。使用re的一般步驟是先將正規表示式的字串形式編譯為pattern例項，然後使用pattern例項處理文字並獲得匹配結果乙個match例項最後使用match例項獲得資訊，進行其他的操作。舉個例子 import re pattern re.compi...

Python3正則去掉HTML標籤

python3去掉空格 python如何去掉空格

Python3讀取HTML檔案

Python3 正則匹配問題

相關推薦