前面不是寫了個**爬蟲嗎,然後就覺得維護起來比較麻煩。
想弄乙個通用的經過我的構想,覺得還是用正則匹配才行。
首先用正則提取了正文,記過我在多個**的測試,已經差不多可以適配大多數了
貼下正則
//正則抓取內容
@test
void
test12()
catch
(exception e)
pattern compile = pattern.
compile
("[pvr/\"]>[^字\\w<*][\\pp\\w\\pn\\pl\\pm"
+unicode_azaz09+chinese+ch_punctuation
+"][^字\\w>]();
matcher m=compile.
matcher
(html)
;while
(m.find()
);",""
).replace
("\n",""
).replace(",
"\n").
replace
("/>",""
).replace
("r>",""
).replace
(" ",""
).replace("
,"").
replace
("v>",""
).replace
("\">",""
).replace
(" ",""
).trim()
;if(restring.
length()
>0)
}}
基本實現了提取**正文的功能,然後就是提取**目錄鏈結了
//抓chapter
@test
void
testencode()
catch
(exception e)
pattern compile = pattern.
compile
("\<\a href=\"([\\w./-]+?)\".*?>(["
+chinese+
" \\d\\pp]+?));
matcher m=compile.
matcher
(html)
;while
(m.find()
)}}
這個提取沒有正文那麼精細了,還可以改進
這樣就基本實現了,給乙個**目錄就可以爬取整本**的目的
這是我的思路,就是匹配漢字來篩選正文
匹配a標籤加標題來實現目錄鏈結提取
實現爬蟲的思路
網路爬蟲通過程式模擬瀏覽器請求站點的行為,把 返回的資料爬到本地,提取自己需要的資料,儲存起來使用。爬蟲構成 1 確定目標 2 解析目標 的資料資訊 3 程式模擬使用者發出http請求獲取資料 4 從獲取的資料中儲存到本地,刪選需要的相關資料 5 對獲取到的資料根據自己的需求使用 注意一般做爬蟲都會...
go自己實現的《餘罪》小說爬蟲
最近在看go的東西,看了官方的教程,看書看不下去。想著還是通過實踐來學習吧,於是決定寫個小專案。之前python入門就是用的爬蟲,這次也想這麼幹。看了別人的 很多用第三方的 覺得不好,決定自己實現。發現go很適合自己造輪子,其實自己造輪子學到的更多,不是嗎?1 採用生產者 消費者模型。生產者解析章節...
JAVA 實現網路爬蟲
class bde image src width 560 height 314 pic type 0 public class task implements runnable override public void run image.write buf,0,len 儲存到本地 image.c...