簡數採集平台已整合豐富的資料處理功能,可以在採集過程中一併把資料進行加工。這一章節就要講關於刪除html標籤及其包含內容,可以指定位置和數量,支援保留文字;
html標籤刪除
刪除多餘內容
html標籤刪除可設定以下屬性:
有些正文前面或者後面會新增一些宣傳,廣告等多餘內容, 如果在選擇採集區域時無法將多餘資訊和正文分開時,且每篇文章都有一樣的多餘內容,就可以嘗試用刪除html標籤來解決。
i、獲取多餘內容標籤
測試採集,檢視資料預覽的**模式;
ii、刪除html標籤設定
從預覽**可以看出,只要刪除最後兩個span標籤和最後乙個ul標籤即可;
iii、採集結果
重新測試採集,檢視採集結果;
iv、無標籤文字
如果只出現文字,沒有對應包裹的標籤,可能是系統預設過濾部分不常用的標籤導致,可以設定保留對應標籤,再進行刪除,詳情可看html標籤過濾;
較常見的是div標籤,先設定保留div標籤,再刪除對應div標籤;
在資料採集上雲過程中需要注意的點
波特率 協調器 38400 感測器 38400 執行器 9600 在同時接入邊緣閘道器及串列埠伺服器的情況下,在邊緣閘道器配置程式中,新增聯結器應選擇 串列埠伺服器接入 此外串列埠伺服器ip就是本地區域網內串列埠伺服器配置ip,而串列埠伺服器端口從6001 6004 rs232 要看資料接入到哪個串...
openstack搭建過程中強制刪除例項的方法
在我們建立例項的過程中,由於種種錯誤的操作,會產生了大量狀態為 error 或 build 的殭屍例項,經過進一步研究,發現其主要原因出現在 rabbitmq 服務,中途有很多連線都 timeout 了。這些殭屍例項建立不成功或者根本就沒有執行,只是在 nova 資料庫裡有紀錄而已,直接用 nova...
python中對list遍歷的過程中刪除元素
使用iterator或索引直接遍歷,然後進行刪除操作會造成list的index溢位和結果錯誤。這是因為當你刪除元素時,游標會進行更新,list的len也會產生變化,導致結果不對。首先介紹第乙個方法 num list 1,2,3,4,5 print num list for item in num l...