用C 去除字串中HTML的格式

2022-05-06 14:12:10 字數 3239 閱讀 6004

想去掉除了段落標記之外的所有html標記,只要頁面的文字,好比是我把**貼到記事本裡面的效果,去掉了鏈結等**。 可以試試。

public static string delhtml(string htmlstring)//將html去除

", "", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"o[^>]*?beha", "", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"w[^>]*?beha", "", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @".shape[^>]*?beha", "", system.text.regularexpressions.regexoptions.ignorecase);

//刪除word樣式 end

//刪除指令碼

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"", "", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"<(.[^>]*)>", "", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"([\r\n])[\s]+", "", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"-->", "", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"&(quot|#34);", "\"", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"&(amp|#38);", "&", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"&(lt|#60);", "<", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"&(gt|#62);", ">", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"&(nbsp|#160);", " ", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"&(iexcl|#161);", "\xa1", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"&(cent|#162);", "\xa2", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"&(pound|#163);", "\xa3", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"&(copy|#169);", "\xa9", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = system.text.regularexpressions.regex.replace(htmlstring, @"&#(\d+);", "", system.text.regularexpressions.regexoptions.ignorecase);

htmlstring = htmlstring.replace("<", "");

htmlstring = htmlstring.replace(">", "");

htmlstring = htmlstring.replace("\r\n", "");

#endregion

//htmlstring = regex.replace(htmlstring, @"[^一-龥]", ""); //只留漢字

return htmlstring;

呼叫時傳入原資料.返回的就是除去後的.

用C 去除字串中HTML的格式

想去掉除了段落標記之外的所有html標記,只要頁面的文字,好比是我把 貼到記事本裡面的效果,去掉了鏈結等 可以試試。public static string delhtml string htmlstring 將html去除 region 刪除指令碼 htmlstring system.text.r...

C 字串去除html格式

在使用freetextbox等流行編輯器後獲得的文字內容裡會摻雜著一些html標記,有時會需要將它們處理掉,這裡給出處理的方法,使用了正規表示式進行規則過濾,由於html標記都是基於 這種格式,而且還有類似 這樣的符號,所以分了2次處理將字串處理為無html格式的字串。簡易 public strin...

C 字串去除html標記

在使用freetextbox等流行編輯器後獲得的文字內容裡會摻雜著一些html標記,有時會需要將它們處理掉,這裡給出處理的方法,使用了正規表示式進行規則過濾,由於html標記都是基於 這種格式,而且還有類似 這樣的符號,所以分了2次處理將字串處理為無html格式的字串。手機 2 3string st...