最近開發乙個小功能,資料庫中乙個基礎表的資料從另乙個**採集。
因為**的資料不定時更新,需要更新後自動採集最新的內容。
怎麼判斷更新資料沒有?
好在**有乙個更新日誌提示的地方,只需要對比本地保留的更新日誌和最新日誌是否一致。
解析網頁原始碼是個難點,有使用正規表示式的。
但我對正規表示式使用不多,搜尋了下在網上找了個開源類庫scrapysharp。
為什麼使用這個類庫了?
因為可以使用jquery的css選擇器方便的解析網頁。
現在就這塊的**貼出來,需要的人可以參照下。
var browser = newscrapingbrowser();
browser.encoding =system.text.encoding.utf8;
string html = browser.downloadstring(new uri("
urladdress
"));//
獲取網頁的原始碼
var doc = new
htmlagilitypack.htmldocument();
doc.loadhtml(html);
var docnode =doc.documentnode;
ienumerable
nodes = docnode.cssselect("
.classname
");//
使用css類選擇器獲取節點
string text = row_0_s.elementat(0).innertext;//
獲取標籤的文字
使用wget抓取網頁
使用wget的mirror選項可以實現整個 的映象抓取。語法是 wget mirror w html extension convert links p path 有點長 事實上,可以通過別名來簡化這個操作,在.bash profile下新增如下語句 alias webdup2 wget mirro...
利用Python抓取和解析網頁 上
對搜尋引擎 檔案索引 文件轉換 資料檢索 站點備份或遷移等應用程式來說,經常用到對網頁 即html檔案 的解析處理。事實上,通過python語言提供的各種模組,我們無需借助web伺服器 或 者web瀏覽器就能夠解析和處理html文件。本文將詳細介紹如何利用python抓取和解析網頁。首先,我們介紹乙...
利用Python抓取和解析網頁 1
利用python抓取和解析網頁 二 對搜尋引擎 檔案索引 文件轉換 資料檢索 站點備份或遷移等應用程式來說,經常用到對網頁 即html檔案 的解析處理。事實上,通過python語言提供的 對搜尋引擎 檔案索引 文件轉換 資料檢索 站點備份或遷移等應用程式來說,經常用到對網頁 即html檔案 的解析處...