通用小說爬蟲思路及JAVA實現

前面不是寫了個**爬蟲嗎，然後就覺得維護起來比較麻煩。

想弄乙個通用的經過我的構想，覺得還是用正則匹配才行。

首先用正則提取了正文，記過我在多個**的測試，已經差不多可以適配大多數了

貼下正則

//正則抓取內容
@test
void
test12()
catch
(exception e)
pattern compile = pattern.
compile
("[pvr/\"]>[^字\\w<*][\\pp\\w\\pn\\pl\\pm"
+unicode_azaz09+chinese+ch_punctuation
+"][^字\\w>]();
matcher m=compile.
matcher
(html)
;while
(m.find()
);",""
).replace
("\n",""
).replace(",
"\n").
replace
("/>",""
).replace
("r>",""
).replace
("　",""
).replace("
,"").
replace
("v>",""
).replace
("\">",""
).replace
("　",""
).trim()
;if(restring.
length()
>0)
}}

基本實現了提取**正文的功能，然後就是提取**目錄鏈結了

//抓chapter
@test
void
testencode()
catch
(exception e)
pattern compile = pattern.
compile
("\<\a href=\"([\\w./-]+?)\".*?>(["
+chinese+
" \\d\\pp]+?));
matcher m=compile.
matcher
(html)
;while
(m.find()
)}}

這個提取沒有正文那麼精細了，還可以改進

這樣就基本實現了，給乙個**目錄就可以爬取整本**的目的

這是我的思路，就是匹配漢字來篩選正文

匹配a標籤加標題來實現目錄鏈結提取

實現爬蟲的思路

網路爬蟲通過程式模擬瀏覽器請求站點的行為，把返回的資料爬到本地，提取自己需要的資料，儲存起來使用。爬蟲構成 1 確定目標 2 解析目標的資料資訊 3 程式模擬使用者發出http請求獲取資料 4 從獲取的資料中儲存到本地，刪選需要的相關資料 5 對獲取到的資料根據自己的需求使用注意一般做爬蟲都會...

go自己實現的《餘罪》小說爬蟲

最近在看go的東西，看了官方的教程，看書看不下去。想著還是通過實踐來學習吧，於是決定寫個小專案。之前python入門就是用的爬蟲，這次也想這麼幹。看了別人的很多用第三方的覺得不好，決定自己實現。發現go很適合自己造輪子，其實自己造輪子學到的更多，不是嗎？1 採用生產者消費者模型。生產者解析章節...

JAVA 實現網路爬蟲

class bde image src width 560 height 314 pic type 0 public class task implements runnable override public void run image.write buf,0,len 儲存到本地 image.c...

通用小說爬蟲思路及JAVA實現

實現爬蟲的思路

go自己實現的《餘罪》小說爬蟲

JAVA 實現網路爬蟲

相關推薦