有多種方式可以在.net 平台進行html檔案解析、資料提取,其中最簡單、穩妥的辦法是先使用工具將html文件整理成xml文件,再通過xml dom模型或xpath靈活地進行資料處理。sgml便是乙個html文件整理工具類庫:
microsoft的xml大師chris lovett專門開發了乙個sgml解析器,叫做sgmlreader,它可以解析html檔案,甚至將它們轉換成乙個格式規範的結構。 sgmlreader派生於xmlreader,這就是說,你可以像運用諸如xmltextreader這樣的類來解析xml檔案那樣來解析html文 件。
這是一段示例**:
public static xmldocument converthtmltoxml(string html)
using (sgmlreader sgmlreader = new sgmlreader()) {
sgmlreader.doctype = "html";
sgmlreader.inputstream = new stringreader(html);
using (stringwriter stringwriter = new stringwriter()){
using (xmltextwriter xmlwriter = new xmltextwriter(stringwriter))
while (!sgmlreader.eof) {
xmlwriter.writenode(sgmlreader, true);
xmldocument xmldoc = new xmldocument();
xmldoc.loadxml(stringwriter.tostring());
return xmldoc;
主頁:語言:英文 授權形式:開源
相關**:
sgmlreader 1.8
msdn**庫
分類:
asp.net
將Html文件整理為規範XML文件
有多種方式可以在.net 平台進行html檔案解析 資料提取,其中最簡單 穩妥的辦法是先使用工具將html文件整理成xml文件,再通過xml dom模型或xpath靈活地進行資料處理。sgml便是乙個html文件整理工具類庫 microsoft的xml大師chris lovett專門開發了乙個sgm...
HTML文件編寫規範
2 根據標記型別,正確書寫標記,單個標記最好在右尖括號前加1個斜槓 如換行標記是單個標記 成對標記最好同時輸入開始標記和結束標記,以免忘記。3 標記可以相互巢狀 也稱為包含 但不能交叉。如 4 在html 書寫時不區分大小寫,如頭部標記寫成,都可以,但建議在同乙個web開發專案保持一種風格,如統一小...
將XML檔案寫入文件
public static void main string args throws exception 建立乙個空的document物件 document doc documenthelper.createdocument 建立乙個根元素 element stus doc.addelement s...