HtmlParser程式設計

2021-07-11 07:51:25 字數 1614 閱讀 1142

htmlparser 提供了強大的類庫來處理 internet 上的網頁,可以實現對網頁特定內容的提取和修改。

1.迴圈迭代所有節點

/**

* 迭代所有節點

* @param list

* @param keyword

*/public static void processnodelist(nodelist list, string keyword)

}else

} }

2.過濾關鍵字

/**

* 迴圈訪問所有節點,輸出包含關鍵字的值節點

* @param url

* @param keyword

*/public static void extractkeywordtext(string url, string keyword)catch(exception e)

}

過濾關鍵字為18,執行結果:

3.過濾標籤

/**

* @param url

*/public static void extraclinks(string url)

// todo auto-generated method stub

return false;}};

//orfilter設定過濾

orfilter orfilter = new orfilter(new nodeclassfilter(linktag.class),new nodeclassfilter(imagetag.class));

orfilter linkfilter = new orfilter(orfilter,framefilter);

nodelist list = parser.extractallnodesthatmatch(linkfilter);

for(int i = 0; i < list.size(); i ++)

else if(tag instanceof imagetag)

else

frame = frame.substring(5, end -1);

system.out.println("frame" + frame);}}

}catch(exception e)

}

過濾執行結果:

4.利用stringbean來去掉所有標籤只剩文字:

stringbean sb = new stringbean();

sb.setlinks(false);

sb.seturl(url);

system.out.println(sb.getstrings());

執行結果:

HTML Parser 簡單解釋

html parser 是乙個非常強大的用於處理 html 解析的模組。html parser 的文件沒有乙個完整的例子。所以我就把下面的我寫在 shellweb 裡的例子摘取出來,並簡單的解釋一下。use html parser my parser html parser new api vers...

內建模組 HTMLParser

假設第一步已經完成了,第二步應該如何解析html呢?html本質上是xml的子集,但是html的語法沒有xml那麼嚴格,所以不能用標準的dom或sax來解析html。好在python提供了htmlparser來非常方便地解析html,只需簡單幾行 from html.parser import ht...

HTMLParser 學習筆記

資料 html屬於xml的子集,但是格式不像xml這麼嚴格,不能用標準的 dom 或 sax 來解析 html python中自帶了乙個類htmlparser用來解析html 我們可以看到,htmlparser裡面很多方法都是空的,如果需要使用,需要重寫方法 overridable finish p...