最近在研究nutch,整理了一下關於讀取資源資料的命令。
檢視具體的url,以163為例:bin/nutch readdb url/crawldb/ -url
2.檢視linkdb資料庫的鏈結情況:bin/nutch readlinkdb url/linkdb/ -url
3.檢視segments:bin/nutch readseg -list -dir url/segments/ 可以看到每乙個segments的名稱,產生的頁面數,抓取的開始時間和結束時間,抓取數和解析數。
匯出segments:bin/nutch readseg -dump url/segments/20090309103156 segdb
nutch的一些基礎整理
原創 2015年03月22日 18 18 01 一 關於配置檔案 nutch default.xml 爬蟲的預設配置。在 conf目錄。nutch site.xml 理論上是nutch default.xml的覆蓋。mapred default.xml 用於nutch的map reduce配置。hd...
git命令的一些命令
1 git是一款開源的分布式版本控制工具 工作區 working directory 倉庫資料夾裡除.git目錄以外的內容 版本庫 reository git目錄,用於儲存記錄版本資訊 暫緩區 stage 分支 master git自動建立的第乙個分支 head指標 用於指向當前分支 git add...
oracle的一些命令
create tablespace datafile data 00.dbf size 500m create user identified by passwd default tablespace tbs temporary tablespace temp create table id int...