node中包含的方法有幾類:
對於樹型結構進行遍歷的函式,這些函式最容易理解:
node getparent ():取得父節點
nodelist getchildren ():取得子節點的列表
node getfirstchild ():取得第乙個子節點
node getlastchild ():取得最後乙個子節點
node getprevioussibling ():取得前乙個兄弟
取得node內容的函式:
string gettext ():取得文字
string toplaintextstring():取得純文字資訊。
string tohtml () :取得html資訊(原始html)
string tohtml (boolean verbatim):取得html資訊(原始html)
string tostring ():取得字串資訊(原始html)
page getpage ():取得這個node對應的page物件
int getstartposition ():取得這個node在html頁面中的起始位置
int getendposition ():取得這個node在html頁面中的結束位置
用於filter過濾的函式:
void collectinto (nodelist list, nodefilter filter):基於filter的條件對於這個節點進行過濾,符合條件的節點放到list中。
用於visitor遍歷的函式:
void accept (nodevisitor visitor):對這個node應用visitor
用於修改內容的函式,這類用得比較少:
void setpage (page page):設定這個node對應的page物件
void settext (string text):設定文字
void setchildren (nodelist children):設定子節點列表
其他函式:
void dosemanticaction ():執行這個node對應的操作(只有少數tag有對應的操作)
object clone ():介面clone的抽象函式。
HTML Parser中包含的方法
node getparent 取得父節點 nodelist getchildren 取得子節點的列表 node getfirstchild 取得第乙個子節點 node getlastchild 取得最後乙個子節點 node getprevioussibling 取得前乙個兄弟 node getnex...
HtmlParser中的各種Filter 1
所有的filter均實現了nodefilter介面,此介面只有乙個方法boolean accept node node 用於確定某個節點 是否屬於此filter過濾的範圍。htmlparser在org.htmlparser.filters包之內一共定義了16個不同的filter,也可以分為幾類。判斷...
HtmlParser類的說明
htmlparser類 這是乙個處理網頁原始檔的類。這裡涉及到了比較底層的東西。由於現在無法除錯,而且無礙大局,暫時就不深究它了。沒事的時候可以看看 the htmlparse class is used to parse an html page.it is just a utility clas...