網頁抓取解析,使用JQuery選擇器進行網頁解析

2022-03-13 09:13:37 字數 844 閱讀 5727

最近開發乙個小功能,資料庫中乙個基礎表的資料從另乙個**採集。

因為**的資料不定時更新,需要更新後自動採集最新的內容。

怎麼判斷更新資料沒有?

好在**有乙個更新日誌提示的地方,只需要對比本地保留的更新日誌和最新日誌是否一致。

解析網頁原始碼是個難點,有使用正規表示式的。

但我對正規表示式使用不多,搜尋了下在網上找了個開源類庫scrapysharp。

為什麼使用這個類庫了?

因為可以使用jquery的css選擇器方便的解析網頁。

現在就這塊的**貼出來,需要的人可以參照下。

var browser = new

scrapingbrowser();

browser.encoding =system.text.encoding.utf8;

string html = browser.downloadstring(new uri("

urladdress

"));//

獲取網頁的原始碼

var doc = new

htmlagilitypack.htmldocument();

doc.loadhtml(html);

var docnode =doc.documentnode;

ienumerable

nodes = docnode.cssselect("

.classname

");//

使用css類選擇器獲取節點

string text = row_0_s.elementat(0).innertext;//

獲取標籤的文字

使用wget抓取網頁

使用wget的mirror選項可以實現整個 的映象抓取。語法是 wget mirror w html extension convert links p path 有點長 事實上,可以通過別名來簡化這個操作,在.bash profile下新增如下語句 alias webdup2 wget mirro...

利用Python抓取和解析網頁 上

對搜尋引擎 檔案索引 文件轉換 資料檢索 站點備份或遷移等應用程式來說,經常用到對網頁 即html檔案 的解析處理。事實上,通過python語言提供的各種模組,我們無需借助web伺服器 或 者web瀏覽器就能夠解析和處理html文件。本文將詳細介紹如何利用python抓取和解析網頁。首先,我們介紹乙...

利用Python抓取和解析網頁 1

利用python抓取和解析網頁 二 對搜尋引擎 檔案索引 文件轉換 資料檢索 站點備份或遷移等應用程式來說,經常用到對網頁 即html檔案 的解析處理。事實上,通過python語言提供的 對搜尋引擎 檔案索引 文件轉換 資料檢索 站點備份或遷移等應用程式來說,經常用到對網頁 即html檔案 的解析處...