從網頁抓取資料的一般方法

2021-08-22 12:57:35 字數 388 閱讀 4984

首先要了解對方網頁的執行機制,這可以用httpwacth或者httplook來看一下http傳送和接收的資料。這兩個工具應該說是比較簡單易懂的。這裡就不再介紹了。主要關注的內容是header和post的內容。一般會包括cookie,referer頁面和其他一些亂其八糟可能看不懂的變數,還有就是正常互動的引數,比如需要post或者get的querystring所包含的東西。

httplook和httpwacth

這裡簡單給出一段可以抓取資料的c#**,比如登入某個**,獲取登入成功後的html**,供資料分析使用。

void

login()

...

以上**除了三個url之外其他資料都是真實的,其中header和data中的引數和值都是用httpwatch來監測後得到。

從網頁抓取資料的一般方法

首先要了解對方網頁的執行機制 這能夠用httpwacth或者httplook來看一下http傳送和接收的資料。這兩個工具應該說是比較簡單易懂的。這裡就不再介紹了。主要關注的內容是header和post的內容。通常會包括cookie,referer頁面和其它一些亂其八糟可能看不懂的變數,還有就是正常互...

從網頁抓取資料的一般方法

首先要了解對方網頁的執行機制 這能夠用httpwacth或者httplook來看一下http傳送和接收的資料。這兩個工具應該說是比較簡單易懂的。這裡就不再介紹了。主要關注的內容是header和post的內容。通常會包括cookie,referer頁面和其它一些亂其八糟可能看不懂的變數,還有就是正常互...

從網頁抓取資料的一般方法

首先要了解對方網頁的執行機制 這可以用httpwacth或者httplook來看一下http傳送和接收的資料。這兩個工具應該說是比較簡單易懂的。這裡就不再介紹了。主要關注的內容是header和post的內容。一般會包括cookie,referer頁面和其他一些亂其八糟可能看不懂的變數,還有就是正常互...