htmlparser類:
這是乙個處理網頁原始檔的類。這裡涉及到了比較底層的東西。由於現在無法除錯,而且無礙大局,暫時就不深究它了。
沒事的時候可以看看:
/*** the htmlparse class is used to parse an html page. it is
* just a utility class, and does not store any values.
*/package com.heaton.bot;
import com.heaton.bot.*;
public
class htmlparser extends parse
public string buildtag()
else
}i++;
}buffer+=">";
return buffer;
}protected
void parsetag()
tag+="--";
idx+=3;
parsedelim=0;
return;
}// find the tag name
while ( !eof() )
eatwhitespace();
// get the attributes
while ( source.charat(idx)!='>' )
// get the value(if any)
parseattributevalue();
addattribute();
}idx++;
}public
char get()
else
return(source.charat(idx++));
} else
return(source.charat(idx++));}}
htmlparser的關鍵類
andfilter 相當於乙個and操作符,接受所有同時滿足兩個filter的節點.cssselectornodefilter 接受所有支援css2選擇器的節點.hasattributefilter 接受所有否含有某個屬性 還可以設定該屬性的值 的節點.haschildfilter 接受所有含有子節...
htmlParser 工具類使用筆記
鏈結過濾器 parser linkparser new parser 屬性過濾器 hasattributefilter tagfilter new hasattributefilter class info hasattributefilter downloadlinkfilter new hasa...
HTML Parser中包含的方法
node getparent 取得父節點 nodelist getchildren 取得子節點的列表 node getfirstchild 取得第乙個子節點 node getlastchild 取得最後乙個子節點 node getprevioussibling 取得前乙個兄弟 node getnex...