c 筆趣閣小說爬蟲

2021-10-04 09:33:05 字數 2241 閱讀 5321

流年似水,回想上一次博文發表,好像已經是一年多以前,差點就忘了自己是個文件攻城獅的本質,罪過啊。

最近在研究爬蟲,python用的不太習慣,還是回歸老本行c#比較好一點,個人又比較喜歡看**,所以就選取筆大大做個白老鼠(默哀)寫個爬蟲玩完,迷茫啊。。。。

這個專案有幾個比較重要的點

一、正規表示式,參考

二、抓取html資料以及分析 參考

原文已經用不了。。。但是思路還是能借用的。其實整體來時就是使用http來get網頁資料,然後運用正規表示式運用演算法匹配內容,獲取自身想要的資料而已。。。很簡單的。。。吧,嘻嘻。

首先是get網頁資料,上**,走你,pokeman。

using system.net;

/// /// 抓取網頁並轉碼

}

我輸入了乙個**,可以看到html的資料

還有哪些頭資料標籤之類懶得截圖了。。。

然後是資料匹配,獲取**名以及目錄及其鏈結。。。show code

string novel_name = regex.match(html, @"(?<=)").value; //獲取書名

string strregex = "(?<=《" + novel_name + "》正文卷)([\\s\\s]*?).+?(?=list3())";

//string strregex = @"(?<=《小世界其樂無窮》正文卷)([\s\s]*?).+?(?=list3())";

regex regex_menu = new regex(strregex);

string result_menu = regex_menu.match(html).value; //獲取列表內容

matchcollection matches = regex.matches(

result_menu,

"(?<=)([\\s\\s]*?)(?=)",//章節匹配

regexoptions.ignorecase | //忽略大小寫

regexoptions.explicitcapture //提高檢索效率

);//

// wr.close();

// wr.dispose();

//}獲取的鏈結

然後乙個個訪問連線,並且用正規表示式擷取所需內容,然後寫進文件裡面,本來乙個文件就夠了,但為了表演效果,就每一章都弄了乙個文件。。。。

private void write_novel(string filename,string title,string url_name)

regex regex_main = new regex(@"(    )(.*)");

string rsult_main = regex_main.match(result_content).value; //正文

string screen_content;

if (novel_type || rsult_main == "")

else

using (filestream fswrite = new filestream(filename, filemode.openorcreate, fileaccess.write))

}

結果

基本上就這麼多了。

初級爬蟲爬取筆趣閣小說

import requests from pyquery import pyquery as pq def get content a response requests.get a response.encoding gbk doc pq response.text text doc conten...

1 4 爬蟲 筆趣閣獲取小說例子

筆趣閣 1.模擬搜尋 2.圖書查詢 章節 3.獲取章節 內容 4.本地儲存 txt mysql def searchbook bookname input 請輸入圖書的名稱 1.轉移字元 中文在url中亂碼 bookname bookname.encode gbk 2.請求 resp request...

Python爬蟲 筆趣閣小說爬取

import requests from lxml import etree以 我有百萬技能點 為例,在筆趣閣搜尋進入目錄頁,複製目錄頁url 對目錄頁的每個章節的url進行爬取,分析網頁利用xpath定位每個章節的url然後進行爬取,然後重新構造url。目錄每一章節的url href html e...