將Html文件整理為規範XML文件

2021-09-22 11:05:45 字數 1001 閱讀 6271

有多種方式可以在.net 平台進行html檔案解析、資料提取,其中最簡單、穩妥的辦法是先使用工具將html文件整理成xml文件,再通過xml dom模型或xpath靈活地進行資料處理。sgml便是乙個html文件整理工具類庫:

microsoft的xml大師chris lovett專門開發了乙個sgml解析器,叫做sgmlreader,它可以解析html檔案,甚至將它們轉換成乙個格式規範的結構。 sgmlreader派生於xmlreader,這就是說,你可以像運用諸如xmltextreader這樣的類來解析xml檔案那樣來解析html文 件。 

這是一段示例**:

public static xmldocument converthtmltoxml(string html)    

using (sgmlreader sgmlreader = new sgmlreader()) {    

sgmlreader.doctype = "html";    

sgmlreader.inputstream = new stringreader(html);    

using (stringwriter stringwriter = new stringwriter()){    

using (xmltextwriter xmlwriter = new xmltextwriter(stringwriter))    

while (!sgmlreader.eof) {    

xmlwriter.writenode(sgmlreader, true);    

xmldocument xmldoc = new xmldocument();    

xmldoc.loadxml(stringwriter.tostring());    

return xmldoc;    

主頁:語言:英文  授權形式:開源

相關**:

sgmlreader 1.8

msdn**庫

分類: 

asp.net

將Html文件整理為規範XML文件

有多種方式可以在.net 平台進行html檔案解析 資料提取,其中最簡單 穩妥的辦法是先使用工具將html文件整理成xml文件,再通過xml dom模型或xpath靈活地進行資料處理。sgml便是乙個html文件整理工具類庫 microsoft的xml大師chris lovett專門開發了乙個sgm...

HTML文件編寫規範

2 根據標記型別,正確書寫標記,單個標記最好在右尖括號前加1個斜槓 如換行標記是單個標記 成對標記最好同時輸入開始標記和結束標記,以免忘記。3 標記可以相互巢狀 也稱為包含 但不能交叉。如 4 在html 書寫時不區分大小寫,如頭部標記寫成,都可以,但建議在同乙個web開發專案保持一種風格,如統一小...

將XML檔案寫入文件

public static void main string args throws exception 建立乙個空的document物件 document doc documenthelper.createdocument 建立乙個根元素 element stus doc.addelement s...