一步完成從捉取到健索引:
bin/nutch crawl urls -dir crawl_data depth 3 -topn5
注入:bin/nutch inject crawl/crawldb urls
生成捉取列表:
bin/nutch generate crawl/crawldb crawl/segments
讀取crawl下的crawldb目錄 生成捉取列表到 segments對應時間標籤目錄下的crawl_generate
開始捉取去網頁:
bin/nutch fetch crawl/segments/時間戳目錄
並把結果存到 crawl/segments/時間戳目錄/crawl_fetch
解析parse :
bin/nutch parse crawl/segments/時間戳目錄
完成上面的命令後,根據 crawl/segments/時間戳目錄的結果,更新crawl/crawldb中的資訊
bin/nutch updatedb crawl/crawldb crawl/segments/時間戳目錄
完成一次捉取。
docker常用命令 Docker 常用命令筆錄
格式docker run 選項 映象 命令 引數.示例docker run it rm ubuntu 16.04 bash 示例解釋 it 這是兩個引數,乙個是 i,表示互動式操作,乙個是 t表示終端 rm 這個引數是說容器退出後隨之將其刪除 ubuntu 16.04 這是指用ubuntu 16.0...
常用命令 Git 常用命令大全
安裝教程可參照 廖雪峰老師的安裝教程。git config 在git中,使用git config 命令來配置 git 的配置檔案,git配置級別主要有3類 1 倉庫級別 local 本地 git 倉庫級別配置檔案,作用於當前倉庫。優先順序最高 2 使用者級別 global,全域性配置檔案,作用於所有...
Linux常用命令 vi vim常用命令介紹
vi vim是linux系統自帶的乙個功能豐富的文字編輯器 命令字元 介紹dd 雙擊d 剪下當前行 num dd 雙擊d 剪下當前行 例如10dd可以刪除10行 yy拷貝當前行 p將內容貼上至游標所示位置 命令 說明 set number 頁面顯 hi 檢視當前系統提供的高亮模式 match col...