//鏈結過濾器
parser linkparser = new parser();
//屬性過濾器
hasattributefilter tagfilter = new hasattributefilter("class","info");
hasattributefilter downloadlinkfilter = new hasattributefilter("class","download1");
hasattributefilter descfilter = new hasattributefilter("class","block2");
//鏈結過濾器
nodefilter linkfilter = new nodeclassfilter(linktag.class);
//通過屬性過濾器獲得內容list
nodelist downloadtag = parser.extractallnodesthatmatch(downloadlinkfilter);
if(!commonutil.isempty(downloadtag))
}//解析parser設定url
//新增自定義標籤工廠
prototypicalnodefactory factory = new prototypicalnodefactory();
//工廠新增自定義標籤類
factory.registertag(new htmlparseptag());
//解析新增工廠
parser.setnodefactory(factory);
//獲得過濾器獲得內容
nodelist desctag = parser.extractallnodesthatmatch(descfilter);
//便利內容
for(int i=0;i= 2;i++)
//自定義抓取標籤
public class htmlparseptag extends compositetag ;
private static final string mendtagenders = ;
public htmlparseptag()
public string getids()
public string getendtagenders()
}
HtmlParser類的說明
htmlparser類 這是乙個處理網頁原始檔的類。這裡涉及到了比較底層的東西。由於現在無法除錯,而且無礙大局,暫時就不深究它了。沒事的時候可以看看 the htmlparse class is used to parse an html page.it is just a utility clas...
htmlparser的關鍵類
andfilter 相當於乙個and操作符,接受所有同時滿足兩個filter的節點.cssselectornodefilter 接受所有支援css2選擇器的節點.hasattributefilter 接受所有否含有某個屬性 還可以設定該屬性的值 的節點.haschildfilter 接受所有含有子節...
使用HtmlParser使用心得
最近因工作的需要,需要檢查html那些不合理或則什麼沒有閉合。在網上找了很久都沒有找到比較合適的工具。於是句試著搞搞htmlparser。獲取html的 string getcontentfromurl string url content sb.tostring response.close re...