最近要解析乙個半結構化網頁, 其中有個**加了很多樣式, 有的有鏈結, 有的純文字, 有的還有奇怪的樣式.
我希望把同一層的dom標籤和其文字分開, 又不會用dom解析庫, 所以只能自己寫個函式意思意思.
def func(text):
cut_text =
pattern1 = ")"
pattern2 = ""
dom1 = zip([_ for _ in re.findall(pattern1, text)],[_.span() for _ in re.finditer(pattern1, text)])
dom2 = zip([_ for _ in re.findall(pattern2, text)],[_.span() for _ in re.finditer(pattern2, text)])
dom = [(b[0],b[1],a,0) for a,b in dom1]
dom = sorted(dom)
print(dom)
sign = 0
for a,b,_,d in dom:
if sign == 0:
start = a
if d == 0:
sign += 1
if d == 1:
sign -= 1
if sign == 0:
end = b
[print(each) for each in cut_text]
xml中各個標籤的含義
xmlns wx xml space preserve 就目前來說,這個部分引用多這兩個申明就可以用了。開始標誌 屬性 這個type 還可以使用 pct 根據視窗調整 居中 邊框線上邊線 下邊線橫線 豎線說明 我畫的 是左右兩邊無邊框的,所有少兩行 如果上下兩條線是1.5,需要設定w sz 12 w...
XML的簡單讀寫
1.建立自己規定樣式的xml文件 體積小,便於傳輸 xmldocument xml new xmldocument xmlelement xnode xml.createelement 節點名字 xnode.setattribute 節點的屬性名 節點的值 xnode.innertext conte...
XML的簡單了解
因為最近計畫學一下爬蟲中用xpath解析資料,所以專門來簡單理解一下xml,僅是簡單概念 xml extensible markup language 經常作為介面語言使用 xml和html同為標籤語言,都是基於文字編輯和修改,都可以通過dom 變成方式來訪問,也都可以通過css來改變外觀。但是仍有...