所有的filter均實現了nodefilter介面,此介面只有乙個方法boolean accept(node node),用於確定某個節點 是否屬於此filter過濾的範圍。 htmlparser在org.htmlparser.filters包之內一共定義了16個不同的filter,也可以分為幾類。
判斷類filter: tagnamefilter
hasattributefilter
haschildfilter
hasparentfilter
hassiblingfilter
isequalfilter
邏輯運算filter
andfilter
notfilter
orfilter
xorfilter
其他filter:
nodeclassfilter
stringfilter
linkstringfilter
linkregexfilter
regexfilter
cssselectornodefilter
除此之外,可以自定義一些filter,用於完成特殊需求的過濾
tag類
主要和nodeclassfilter配合使用
remark:注釋
basehreftag:
body tag:"body";//getbody();內部呼叫額是toplaintextstring();
bullet:"li"
bulletlist:"ul","ol"
compositetag:
definitionlist:"dl"
definitionlistbullet:"dd","dt"
div:"div"
doctypetag:「!doctype"
formtag:
framesettag:
frametag:
headingtag:"h1","h2","h3","h4","h5","h6"
headtag:"head"
html:"html"
imagetag:
inputtag:"input"
jsptag:"%","%=","%@"
labeltag:"label"
linktag:
metatag:
objecttag:
optiontag:
paragraphtag:"p"
processinginstructiontag:"?"
scripttag:
selecttag:"select"
span:"span"
styletag:"style"
tablecolumn:"td"
tableheader:"th"
tablerow:"tr"
tabletag:"table"
tagnode:
textareatag:"textarea"
titletag:"title"
textnode:
HTML Parser中包含的方法
node getparent 取得父節點 nodelist getchildren 取得子節點的列表 node getfirstchild 取得第乙個子節點 node getlastchild 取得最後乙個子節點 node getprevioussibling 取得前乙個兄弟 node getnex...
HTML Parser中包含的方法
node中包含的方法有幾類 對於樹型結構進行遍歷的函式,這些函式最容易理解 node getparent 取得父節點 nodelist getchildren 取得子節點的列表 node getfirstchild 取得第乙個子節點 node getlastchild 取得最後乙個子節點 node ...
HtmlParser類的說明
htmlparser類 這是乙個處理網頁原始檔的類。這裡涉及到了比較底層的東西。由於現在無法除錯,而且無礙大局,暫時就不深究它了。沒事的時候可以看看 the htmlparse class is used to parse an html page.it is just a utility clas...