nutch的核心流程分析

2021-06-02 07:38:42 字數 344 閱讀 1386

crawl類的時序圖。

流程如下:

1. 建立初始url 集

2. 將url 集注入crawldb 資料庫---inject

3. 根據crawldb 資料庫建立抓取列表---generate

4. 執行抓取,獲取網頁資訊---fetch

5. 更新資料庫,把獲取到的頁面資訊存入資料庫中---updatedb

6. 重複進行3 ~5 的步驟,直到預先設定的抓取深度。--- 這個迴圈過程被稱為「 產生/ 抓取/ 更新」 迴圈

7. 根據sengments 的內容更新linkdb 資料庫---invertlinks

8. 建立索引---index

Nutch工作流程

nutch工作流程 建立初始url集合分析 超連結是指機械人程式根據網頁鏈到其他網頁中的超連結,就像日常生活中所說的 一傳十,十傳百 一樣,從少數幾個網頁開始,連到資料庫上所有到其他網頁的鏈結。理論上,若網頁上有適當的超連結,機械人便可以遍歷絕大部分網頁。站長提交是指在實際執行中,爬蟲不可能抓取到所...

nutch2 2 1抓取流程

整體流程 injectorjob generatorjob fetcherjob parserjob dbupdaterjob solrindexerjob injectorjob 從檔案中得到一批種子網頁,把它們放到抓取資料庫中去 generatorjob 從抓取資料庫中產生要抓取的頁面放到抓取佇...

nutch工作流程簡介

先用一幅圖來形容nutch的工作流程 一 抓取部分 網路爬蟲 1.建立初始url集 2.將url集注入crawldb資料庫 inject包 根據crawldb資料庫建立抓取列表 generate 執行抓取,獲取網頁資訊 fetch 更新資料庫,把獲取到的頁面資訊存入資料庫中 updatedb 重複進...