正規表示式抓取網頁資訊

宣告：此正規表示式只適用於.net ,使用的流程為傳送http請求返回整個html網頁，然後從此html頁面抓取想要的資料。

第一部分：傳送httpwebrequest 請求

//url 位址
//瀏覽器型別設定
request.useragent = "mozilla/4.0 (compatible; msie 7.0; windows nt 6.0; slcc1; .net clr 2.0.50727; .net clr 3.0.04506; .net clr 3.5.21022; .net clr 1.0.3705; .net clr 1.1.4322)";
streamreader reader = new streamreader(response.getresponsestream(), encoding.getencoding("utf-8"));
//返回的html網頁資料
string htmlstr = reader.readtoend();

第二部分：根據返回的html獲取有用資料，此方法適用於所有想通過id或class等等的標籤找到html的需求，拿下面乙個方法為例

/// /// 獲得顏色
/// 
/// 
/// 
public string getcolor(string htmlstr)
}return sbs.tostring();
}return "";
}

/// /// 替換字串中的html標籤為空返回標籤裡的內容
/// 
/// 
/// 
public string removehtml(string src)
|\\ \\;", regexoptions.compiled | regexoptions.ignorecase);
regex stylereg = new regex(@"", regexoptions.compiled | regexoptions.ignorecase);
regex scriptreg = new regex(@"", regexoptions.compiled | regexoptions.ignorecase);
src = stylereg.replace(src, string.empty);
src = scriptreg.replace(src, string.empty);
src = htmlreg.replace(src, string.empty);
src = htmlspacereg.replace(src, " ");
src = spacereg.replace(src, " ");
return src.trim();
}

ObjC利用正規表示式抓取網頁內容

在開發專案的過程，很多情況下我們需要利用網際網路上的一些資料，在這種情況下，我們可能要寫乙個爬蟲來爬我們所需要的資料。一般情況下都是利用正規表示式來匹配html,獲取我們所需要的資料。一般情況下分以下三步。1 獲取網頁的html 2 利用正規表示式，獲取我們所需要的資料 3 分析，使用獲取到的資料，...

網頁解析正規表示式

在寫爬蟲的過程中，最麻煩的就是寫正規表示式，還要乙個乙個的嘗試，一次次的除錯，很是費時間。於是我就寫了乙個網頁版的，只需要輸入要爬的和正則式，網頁上就可以顯示爬到的資料。思路其實很簡單，將和正則式傳到伺服器，伺服器解析之後，將結果返回到前端。我用的是bootcss 前端 bottle 後台用p...

利用正規表示式組合抓取 CSDN部落格資訊

應用的正規表示式函式re.findall，元字元.抓取網頁使用的模組requests 抓取情況 usr bin python coding utf 8 import requests import re link headers r requests.get link,headers headers...

正規表示式抓取網頁資訊

ObjC利用正規表示式抓取網頁內容

網頁解析正規表示式

利用正規表示式 組合抓取 CSDN部落格資訊

相關推薦

利用正規表示式組合抓取 CSDN部落格資訊