c 筆趣閣小說爬蟲

流年似水，回想上一次博文發表，好像已經是一年多以前，差點就忘了自己是個文件攻城獅的本質，罪過啊。

最近在研究爬蟲，python用的不太習慣，還是回歸老本行c#比較好一點，個人又比較喜歡看**，所以就選取筆大大做個白老鼠（默哀）寫個爬蟲玩完，迷茫啊。。。。

這個專案有幾個比較重要的點

一、正規表示式，參考

二、抓取html資料以及分析參考

原文已經用不了。。。但是思路還是能借用的。其實整體來時就是使用http來get網頁資料，然後運用正規表示式運用演算法匹配內容，獲取自身想要的資料而已。。。很簡單的。。。吧，嘻嘻。

首先是get網頁資料，上**，走你，pokeman。

using system.net;

/// /// 抓取網頁並轉碼
}

我輸入了乙個**，可以看到html的資料

還有哪些頭資料標籤之類懶得截圖了。。。

然後是資料匹配，獲取**名以及目錄及其鏈結。。。show code

string novel_name = regex.match(html, @"(?<=)").value; //獲取書名

string strregex = "(?<=《" + novel_name + "》正文卷)([\\s\\s]*?).+?(?=list3())";

//string strregex = @"(?<=《小世界其樂無窮》正文卷)([\s\s]*?).+?(?=list3())";

regex regex_menu = new regex(strregex);

string result_menu = regex_menu.match(html).value; //獲取列表內容

matchcollection matches = regex.matches(

result_menu,

"(?<=)([\\s\\s]*?)(?=)",//章節匹配

regexoptions.ignorecase | //忽略大小寫

regexoptions.explicitcapture //提高檢索效率

);//

// wr.close();

// wr.dispose();

//}獲取的鏈結

然後乙個個訪問連線，並且用正規表示式擷取所需內容，然後寫進文件裡面，本來乙個文件就夠了，但為了表演效果，就每一章都弄了乙個文件。。。。

private void write_novel(string filename,string title,string url_name)
regex regex_main = new regex(@"(    )(.*)");
string rsult_main = regex_main.match(result_content).value; //正文
string screen_content;
if (novel_type || rsult_main == "")
else
using (filestream fswrite = new filestream(filename, filemode.openorcreate, fileaccess.write))
}

結果

基本上就這麼多了。

初級爬蟲爬取筆趣閣小說

import requests from pyquery import pyquery as pq def get content a response requests.get a response.encoding gbk doc pq response.text text doc conten...

1 4 爬蟲筆趣閣獲取小說例子

筆趣閣 1.模擬搜尋 2.圖書查詢章節 3.獲取章節內容 4.本地儲存 txt mysql def searchbook bookname input 請輸入圖書的名稱 1.轉移字元中文在url中亂碼 bookname bookname.encode gbk 2.請求 resp request...

Python爬蟲筆趣閣小說爬取

import requests from lxml import etree以我有百萬技能點為例，在筆趣閣搜尋進入目錄頁，複製目錄頁url 對目錄頁的每個章節的url進行爬取，分析網頁利用xpath定位每個章節的url然後進行爬取，然後重新構造url。目錄每一章節的url href html e...

c 筆趣閣小說爬蟲

初級爬蟲爬取筆趣閣小說

1 4 爬蟲 筆趣閣獲取小說例子

Python爬蟲 筆趣閣小說爬取

相關推薦

1 4 爬蟲筆趣閣獲取小說例子

Python爬蟲筆趣閣小說爬取