Heritrix個性化設定抓取目標

2022-03-12 03:09:29 字數 1182 閱讀 8038

本文是heritrix的使用的高階篇,針對對heritrix已經能夠執行的碼農朋友們!

那麼如何才能做到只抓取html網頁呢?(這裡暫且不討論抓取抓取指定網域名稱的html網頁,在之後的文章中可能會列出來!)

由於我們只對html檔案中的鏈結感興趣,所以去除了以下三個extractor。

extractorcss

extractorjs

extractorswf

修改前:

修改後:

新增org.archive.crawler.deciderules.filterdeciderule

midfetch-decide-rules

新增org.archive.crawler.filter.contenttyperegexpfilter

和org.archive.crawler.deciderules.decidingfilter

然後新增org.archive.crawler.deciderules.fetchstatusdeciderule

到decidingfilter

修改前:

修改後:

修改 regexp: 的值為「text/html*」【沒有引號】

修改target-status的值為200

修改後為:

到此,設定就基本結束了!【本方法經實踐檢驗】

*************************==參考***************************==

*************************==參考***************************==

Windows XP 個性化設定

1.開機只執行指定程式 在登錄檔位置hkey local machine software microsoft windowsnt currentversion winlogon userinit,用你的程式名 含完整路徑 替代該鍵值下的程式userinit.exe即可,不過一定要記住該位置和use...

個性化設定vim

vim的安裝設定,下面的我對vim相關的設定,使用的系統是ubuntu 16.04.旨在做個筆記,方便自己的配置 不間斷更新中 vim的安裝使用命令列 sudo apt get update sudo apt get install vimvim的設定檔案為 vimrc,如果在 檔案下不存在該檔案,...

設定個性化背景

對於.text的skin設計,我個人認為主要是css的運用。但從 技術的方面來講,其實比寫程式簡單多了。css也融入了物件導向思想,很容易將顯示和內容分離。dudu成立了關於skin的討論組,正好向大家學習一下成功的經驗。我先拿自己開刀了,小改一下背景,然後大家就可以來拍磚了。其實,我自己都覺得難看...