可以利用其自帶的例子裡面已經寫好了的那個函式,在functions.xml檔案裡面,只要
在配置檔案的開頭把include進來就行了;
functions.xml檔案如下:
$
其裡面的各個引數的意義:
第乙個是指開始的那個頁面的url;
第二個是指你要在頁面裡面取得的乙個list,比如說是href的list或者說是乙個tr的
list,我下面的例子就是取得乙個tr的list;
第三個是指下乙個頁面的url;
第四個是指迴圈查詢的頁數;
這就是我所寫的配置檔案:
//a[contains(text(),'下頁')]/@href
//table[@background='../images/dotline.gif']/tbody/tr
10]]>
]]>
]]>
使用wget抓取網頁
使用wget的mirror選項可以實現整個 的映象抓取。語法是 wget mirror w html extension convert links p path 有點長 事實上,可以通過別名來簡化這個操作,在.bash profile下新增如下語句 alias webdup2 wget mirro...
使用 Socket 抓取資料
要在客戶端操作 socket 可使用 fsockopen socket create stream socket client 等函式實現。如果是php 5,建議使用 stream socket。fsockopen 實現長連線。client 方與 server 方先建立通訊連線,連線建立後不斷開,然...
使用HtmlAgilityPack抓取網頁資料
剛剛學習了xpath路徑表示式,主要是對xml文件中的節點進行搜尋,通過xpath表示式可以對xml文件中的節點位置進行快速定位和訪問,html也是也是一種類似於xml的標記語言,但是語法沒有那麼嚴謹,在codeplex裡有乙個開源專案htmlagilitypack,提供了用xpath解析html檔...