正規表示式抓取網頁資訊

2021-09-02 03:34:37 字數 1528 閱讀 4530

宣告:此正規表示式只適用於.net ,使用的流程為傳送http請求返回整個html網頁,然後從此html頁面抓取想要的資料。

第一部分:傳送httpwebrequest 請求

//url 位址

//瀏覽器型別設定

request.useragent = "mozilla/4.0 (compatible; msie 7.0; windows nt 6.0; slcc1; .net clr 2.0.50727; .net clr 3.0.04506; .net clr 3.5.21022; .net clr 1.0.3705; .net clr 1.1.4322)";

streamreader reader = new streamreader(response.getresponsestream(), encoding.getencoding("utf-8"));

//返回的html網頁資料

string htmlstr = reader.readtoend();

第二部分:根據返回的html獲取有用資料,此方法適用於所有想通過id或class等等的標籤找到html的需求,拿下面乙個方法為例

/// /// 獲得顏色

///

///

///

public string getcolor(string htmlstr)

}return sbs.tostring();

}return "";

}

/// /// 替換字串中的html標籤為空返回標籤裡的內容

///

///

///

public string removehtml(string src)

|\\ \\;", regexoptions.compiled | regexoptions.ignorecase);

regex stylereg = new regex(@"", regexoptions.compiled | regexoptions.ignorecase);

regex scriptreg = new regex(@"", regexoptions.compiled | regexoptions.ignorecase);

src = stylereg.replace(src, string.empty);

src = scriptreg.replace(src, string.empty);

src = htmlreg.replace(src, string.empty);

src = htmlspacereg.replace(src, " ");

src = spacereg.replace(src, " ");

return src.trim();

}

ObjC利用正規表示式抓取網頁內容

在開發專案的過程,很多情況下我們需要利用網際網路上的一些資料,在這種情況下,我們可能要寫乙個爬蟲來爬我們所需要的資料。一般情況下都是利用正規表示式來匹配html,獲取我們所需要的資料。一般情況下分以下三步。1 獲取網頁的html 2 利用正規表示式,獲取我們所需要的資料 3 分析,使用獲取到的資料,...

網頁解析正規表示式

在寫爬蟲的過程中,最麻煩的就是寫正規表示式,還要乙個乙個的嘗試,一次次的除錯,很是費時間。於是我就寫了乙個網頁版的,只需要輸入要爬的 和正則式,網頁上就可以顯示爬到的資料。思路 其實很簡單,將 和正則式傳到伺服器,伺服器解析之後,將結果返回到前端。我用的是bootcss 前端 bottle 後台用p...

利用正規表示式 組合抓取 CSDN部落格資訊

應用的正規表示式函式re.findall,元字元.抓取網頁使用的模組requests 抓取情況 usr bin python coding utf 8 import requests import re link headers r requests.get link,headers headers...