這裡指的是,你發現任意乙個頁面,沒有rss,沒有資料介面,只是通過瀏覽器能夠訪問,把上面的資料用程式拿過來用。
基本原理:
1,通過http請求頁面,返回字串的**;
3,有需要的可以把資料儲存到自己的資料庫中,也報過處理等。
4,把提取出來的資料生成自己需要的頁面。
乙個偷取頁面的過程就這樣完成了。下面是兩種第一步的**,原理是一樣的。
///
/// 傳入url返回網頁的html**
///
/// url
///
public string geturltohtml(string url)
catch (system.exception ex)
return "";
}/// 獲取遠端檔案源**
///
/// 遠端url
///
public string getremotehtmlcode(string url)
return s;
}第二步,正規表示式的乙個小例子,把div中的內容全部返回了,接下來,存到自己的資料庫還做什麼就隨意了。
c 資料採集
這段時間採集一些網路資源,考慮到採集源的防採集遮蔽,於是火車頭採集器也排不上用場了,只能自己寫乙個,部分 如下 code private void gotores if directory.exists strpath if downfile2 dt.rows i resourceurl tostr...
c 資料採集
這段時間採集一些網路資源,考慮到採集源的防採集遮蔽,於是火車頭採集器也排不上用場了,只能自己寫乙個,部分 如下 code private void gotores if directory.exists strpath if downfile2 dt.rows i resourceurl tostr...
C 採集頁面資料
using htmlagilitypack using nito.asyncex using system using system.diagnostics using system.io using system.io.compression using system.net using syst...