資料採集過程中快速刪除HTML標籤方法

2021-10-10 09:13:50 字數 1158 閱讀 9827

簡數採集平台已整合豐富的資料處理功能,可以在採集過程中一併把資料進行加工。這一章節就要講關於刪除html標籤及其包含內容,可以指定位置和數量,支援保留文字;

html標籤刪除

刪除多餘內容

html標籤刪除可設定以下屬性:

有些正文前面或者後面會新增一些宣傳,廣告等多餘內容, 如果在選擇採集區域時無法將多餘資訊和正文分開時,且每篇文章都有一樣的多餘內容,就可以嘗試用刪除html標籤來解決。

i、獲取多餘內容標籤

測試採集,檢視資料預覽的**模式;

ii、刪除html標籤設定

從預覽**可以看出,只要刪除最後兩個span標籤和最後乙個ul標籤即可;

iii、採集結果

重新測試採集,檢視採集結果;

iv、無標籤文字

如果只出現文字,沒有對應包裹的標籤,可能是系統預設過濾部分不常用的標籤導致,可以設定保留對應標籤,再進行刪除,詳情可看html標籤過濾;

較常見的是div標籤,先設定保留div標籤,再刪除對應div標籤;

在資料採集上雲過程中需要注意的點

波特率 協調器 38400 感測器 38400 執行器 9600 在同時接入邊緣閘道器及串列埠伺服器的情況下,在邊緣閘道器配置程式中,新增聯結器應選擇 串列埠伺服器接入 此外串列埠伺服器ip就是本地區域網內串列埠伺服器配置ip,而串列埠伺服器端口從6001 6004 rs232 要看資料接入到哪個串...

openstack搭建過程中強制刪除例項的方法

在我們建立例項的過程中,由於種種錯誤的操作,會產生了大量狀態為 error 或 build 的殭屍例項,經過進一步研究,發現其主要原因出現在 rabbitmq 服務,中途有很多連線都 timeout 了。這些殭屍例項建立不成功或者根本就沒有執行,只是在 nova 資料庫裡有紀錄而已,直接用 nova...

python中對list遍歷的過程中刪除元素

使用iterator或索引直接遍歷,然後進行刪除操作會造成list的index溢位和結果錯誤。這是因為當你刪除元素時,游標會進行更新,list的len也會產生變化,導致結果不對。首先介紹第乙個方法 num list 1,2,3,4,5 print num list for item in num l...