爬蟲資料清洗之html標籤的清洗

2021-09-25 02:12:48 字數 975 閱讀 1453

我們平常爬取資料時,會經常有多餘的html便簽,下面我們就來清洗一下這些標籤:

1,只清洗標籤,可以用正則,也可以用remove(),remove_tags()函式

資料、雲計算、物聯網等工程技術人員,也有電子競技員、無人機駕駛員等新穎工種…你心動了嗎?哪些學校開設了相關專業值得關注?戳圖了解↓↓轉給正在求學的ta!                

pre = re.compile('>(.*?)<')

text= ''.join(pre.findall(html))

remove()用於刪除多餘的,我們不想要的特定的標籤

doc = pq(html)

doc('.article-t style').remove()

如上是:想要class為article裡面的內容,但又不想要style標籤中的內容,就可以通過以上把style標籤刪除,然後再提取article下的所有內容。

remove_tags()刪除含有完整的標籤:

from w3lib.html import remove_tags

a = 'ai

工程師'

print(remove_tags(a))

ai工程師

2,清洗標籤和標籤包括的內容,用remove_tags_with_content(要清洗的文字,which_ones=(要清洗的標籤,))函式 

from w3lib.html import remove_tags_with_content

a = "otezmjezmtezndy=9otezmjezmtezndy=132131134642891xt"

print(remove_tags_with_content(a, which_ones=('span',)))

9132131134642891xt

爬蟲 如何提取HTML多層標籤下的內容

html內容如下 html divid 1 p a 床前明月光 div divid 2 p ahref 1.html 疑是地上霜 ahref 2.html 舉頭望明月 ahref 3.html 低頭撕褲襠 div 可以看到,div標籤下包含了p a標籤 做一鍋湯 from bs4 import be...

資料清洗之值的替換 replace

很多情況下,我們想把一些值替換成其他值,這裡可以用pandas中replace 實現.in 102 ser pd.series 0 1.2.3.4 單個值的替換 in 103 ser.replace 0,5 把0替換成5 out 103 0 5.01 1.02 2.03 3.04 4.0dtype ...

HTML之標籤的型別 顯示模式

塊級元素 block level 每個塊元素通常都會獨自佔據一整行或多整行,可以對其設定寬度 高度 對齊等屬性,常用於網頁布局和網頁結構的搭建。常見的塊元素有 只有文字才能組成段落,因此p裡面不能放塊級元素,同理還有這些標籤h1,h2,h3,h4,h5,h6,dt,他們都是文字類塊級標籤,裡面不能放...