nutch 產生的目錄說明:
segments
目錄儲存抓取的頁面,下面子目錄的個數與獲取頁面的層數有關係,我指定
-depth是3
層,這個目錄下就有3層。
裡面有6個子目錄
content,
crawl_fetch,
url的狀態內容;
crawl_generate,
url的集合,在
generate
crawl_parse,
存放用來更新
crawldb
的外部鏈結庫;
parse_data,
存放每個
url解析出來的外部鏈結和元資料;
parse_text,
存放每個解析過的
url的文字內容;
具體內容,詳見文章。
LINUX的目錄說明
bin bin是binary的縮寫。這個目錄是對unix系統習慣的沿襲,存放著使用者最經常使用的命令。例如 cp,ls,cat。boot 這裡存放的是啟動linux時使用的一些核心檔案。dev dev是device 裝置 的縮寫。這個目錄下是所有linux的外部裝置,其功能類似dos下的.sys和w...
linux目錄說明
bin sbin usr bin usr sbin目錄的區別 在linux下我們經常用到的四個應用程式的目錄是 bin sbin usr bin usr sbin 而四者存放的檔案一般如下 www.2cto.com bin目錄 bin為binary的簡寫主要放置一些 系統的必備執行檔例如 cat c...
Linux 目錄說明
date 時間 cal calendar bc 計算器 ctrl c 終止 ctrl d 鍵盤輸入結束 man 命令 命令後面的數字 1 使用者在 shell 環境中可以操作的挃令戒可執行檔案 2 系統核心可呼叫的凼數不工具等 3 一些常用的凼數 function 不凼式庫 library 大部分為...