最近在研究nutch,找到了關於使用底層命令進行全網爬行的資料。
首先獲得**集,使用http://rdf.dmoz.org/rdf/ 目錄下的content.example.txt 檔案做測試,建立資料夾dmoz
命令:bin/nutch org.apache.nutch.tools.dmozparser content.example.txt >dmoz/urls
命令:bin/nutch inject crawl/crawldb dmoz
建立抓取列表:
命令:bin/nutch generate crawl/crawldb crawl/segments
把segments下的檔案儲存到變數s1中,供以後呼叫:
命令:s1=`ls -d crawl/segments/2* | tail -1`
命令:echo $s1
注`不是單引號,而是左上角跟~乙個鍵位的那個
執行fetcher獲取這些url資訊:
命令:bin/nutch fetch $s1
更新資料庫,把獲取的頁面資訊存進資料庫中:
命令:bin/nutch updatedb crawl/crawldb $s1
第一次抓取結束。
接下來選擇分值排在前10的url來進行第二次和第三次抓取:
命令:bin/nutch generate crawl/crawldb crawl/segments -topn 10
命令:s2=`ls -d crawl/segments/2* | tail -1`
命令:echo $s2
命令:bin/nutch fetch $s2
命令:bin/nutch updatedb crawl/crawldb $s2
命令:bin/nutch generate crawl/crawldb crawl/segments -topn 10
命令:s3=`ls -d crawl/segments/2* | tail -1`
命令:echo $s3
命令:bin/nutch fetch $s3
命令:bin/nutch updatedb crawl/crawldb $s3
根據segments的內容更新linkdb資料庫:
命令:bin/nutch invertlinks crawl/linkdb crawl/segments/*
建立索引:
命令:bin/nutch index crawl/indexes crawl/crawldb crawl/linkdb crawl/segments/*
可以通過此命令進行查詢:
nutch的一些讀取命令
最近在研究nutch,整理了一下關於讀取資源資料的命令。檢視具體的url,以163為例 bin nutch readdb url crawldb url 2.檢視linkdb資料庫的鏈結情況 bin nutch readlinkdb url linkdb url 3.檢視segments bin n...
mysql的命令不是太全,網上貼上的,求大牛補充
啟動 net start mysql 進入 mysql u root p mysql h localhost u root p databasename 列出資料庫 show databases 選擇資料庫 use databasename 列出 show tables 顯示 列的屬性 show c...
Android底層控制系統設定的命令集合
1 關機 poweroff f 2 設定系統時間 date s yyyymmdd.hhmmss 3 lcd背光開關 echo enable disable sys class lcd debug 4 pm命令 察看已安裝的包 pm list package 此時則顯示所有已經安裝的包名。pm lis...