區域網抓取
bin/nutch crawl urls -dir 20090519 -depth 1 -topn 50 -threads 2 >& nutch.log
網際網路抓取命令(注:1.0版本的命令和以前版本有許多不一樣)
讀取命令
檢視具體的url,以163為例:bin/nutch readdb 20090519/crawldb/ -url http://www.163.com/
匯出linkdb資料庫檔案:bin/nutch readlinkdb 20090519/linkdb/ -dump linkdb(out_dir)
3.檢視segments:bin/nutch readseg -list -dir 20090519/segments/ 可以看到每乙個segments的名稱,產生的頁面數,抓取的開始時間和結束時間,抓取數和解析數。
匯出segments:bin/nutch readseg -dump 20090519/segments/20090309103156 segdb(out_dir)
nutch 1 0 的分布式查詢部署
data winter search dir path to root of crawl.即 search servers.txt 所在的父目錄 subserver 172.16.100.2及172.16.100.3 的配置 1.設subserver配置位址為 data search server ...
nutch常用命令
一步完成從捉取到健索引 bin nutch crawl urls dir crawl data depth 3 topn5 注入 bin nutch inject crawl crawldb urls 生成捉取列表 bin nutch generate crawl crawldb crawl seg...
nutch全網爬行的底層命令
最近在研究nutch,找到了關於使用底層命令進行全網爬行的資料。首先獲得 集,使用http rdf.dmoz.org rdf 目錄下的content.example.txt 檔案做測試,建立資料夾dmoz 命令 bin nutch org.apache.nutch.tools.dmozparser ...