總結
在抓資料的時候 尤其是資料多的時候 幾百頁的上萬條資料
先抓主資料列表資料在根據主表抓詳情
1.要有日誌記錄 記錄總條數 log日誌表
第一頁記錄總條數寫入日誌表,確定迴圈多少次
2.回來的資料入庫的時候做好把頁數page也帶上 萬一資料抓取過程中中斷的時候接著抓 就沒必要抓取全部了
3.詳情資料回來改主記錄 標記那些抓取過的
4.抓完之後驗證!!!!
根據log表的資料 看主記錄條數夠不夠,不夠看頁數夠不夠少哪頁的資料
詳情頁一樣看條數和主記錄能不能對應上
抓取csdn的資料
如有不明白的地方歡迎加qq群 14670545 質量不行,後面採集起來卡,原因是正則我太菜了,沒有開多執行緒採集。下面我舉例 目標頁面是有圖有真相 看看採集後的效果 下面是採集到的每個帖子樓主的內容以及一些簡單的顯示。之所以沒有顯示出來,因為csdn是用的乙個專門的伺服器,設定了防盜煉,這個自己搗鼓...
Jsoup抓取資料
首先我們來看來自 的乙個html片段,了解其結構。class detail style display block class add jrsj plus bookid 609737 em class mark63 href target blank src alt 不死龍帝 style width...
Xmind Java資料抓取
思路 1,登入。2,登入成功後獲得cookie。3,將cookie放到請求頭中,向登入頁傳送請求。1.獲得url物件 url url newurl urlstring 2.開啟連線 3.向request中注入cookie urlconn.setrequestproperty cookie cooki...